Reconstruyendo experiencias visuales a partir de la actividad del cerebro humano con Stable Diffusion
Demostramos que nuestro marco simple puede reconstruir imágenes de alta resolución a partir de la actividad cerebral con alta fidelidad semántica, sin necesidad de entrenamiento o ajuste de modelos generativos profundos complejos.

Izquierda: Descripción general de nuestro marco. Derecha: imágenes presentadas (recuadro rojo, fila superior) e imágenes reconstruidas a partir de la actividad del cerebro humano (recuadro gris, fila inferior).

¿Como funciona?
Reconstruimos imágenes visuales a partir de señales funcionales de imágenes por resonancia magnética (fMRI) utilizando un modelo de difusión latente llamado difusión estable.
Visualización del proceso de eliminación de ruido condicionado con actividad cerebral humana


Comprender el proceso interno de difusión estable con modelos de codificación de actividad cerebral
Interpretamos cuantitativamente cada componente de un LDM desde una perspectiva neurocientífica, asignando componentes específicos a regiones del cerebro.

También presentamos una interpretación objetiva de cómo el proceso de conversión de texto a imagen implementado por un LDM incorpora la información semántica expresada por el texto condicional, mientras que al mismo tiempo mantiene la apariencia de la imagen original.

BibTeX
@article {Takagi2022.11.18.517004,
author = {Takagi, Yu and Nishimoto, Shinji},
title = {High-resolution image reconstruction with latent diffusion models from human brain activity},
elocation-id = {2022.11.18.517004},
year = {2022},
doi = {10.1101/2022.11.18.517004},
publisher = {Cold Spring Harbor Laboratory},
URL = {https://www.biorxiv.org/content/early/2022/11/21/2022.11.18.517004},
eprint = {https://www.biorxiv.org/content/early/2022/11/21/2022.11.18.517004.full.pdf},
journal = {bioRxiv}
}
Fuente: https://sites.google.com/view/stablediffusion-with-brain/?pli=1