CIFAR y Redes Neuronales en Neurociencia

15/05/2020

★★★★★Valoración: 4.08 (6044 votos)

La neurociencia es un campo en constante evolución, impulsado por la colaboración internacional y el desarrollo de herramientas computacionales cada vez más sofisticadas. Comprender las entidades que financian y coordinan esta investigación de vanguardia, así como los modelos que nos ayudan a simular y entender el cerebro, es fundamental para apreciar los avances que están redefiniendo nuestra comprensión de la mente.

CIFAR Neuroscience of Consciousness Winter School (organizers)

Índice de Contenido

¿Qué es CIFAR y su Impacto en la Investigación?
Redes Neuronales Recurrentes (RNN) en Neurociencia
El Desafío de Entrenar RNNs para Dependencias Temporales Largas
Métodos Innovadores para un Entrenamiento Eficiente y Plausible
Comparación de Métodos de Entrenamiento en Tareas Cognitivas
Colocación Estratégica de Conexiones de Salto
Discusión y Futuras Implicaciones
Preguntas Frecuentes (FAQs)
Conclusión

¿Qué es CIFAR y su Impacto en la Investigación?

CIFAR, que significa Canadian Institute for Advanced Research (Instituto Canadiense de Investigación Avanzada), es una organización de investigación global con sede en Canadá. Fundada en 1982, su misión es reunir a equipos de investigadores de élite de todo el mundo para abordar preguntas importantes y complejas que trascienden las fronteras tradicionales de las disciplinas y las naciones.

What does Cifar stand for? — The Canadian Institute for Advanced Research (CIFAR) is a Canadian-based global research organization that brings together teams of top researchers from around the world to address important and complex questions.

El instituto recibe apoyo de una combinación diversa de fuentes, incluyendo individuos, fundaciones, corporaciones y financiación significativa de los gobiernos de Canadá, Alberta y Quebec. Este modelo de financiación le permite respaldar a más de 400 investigadores en 21 países y más de 140 instituciones, fomentando una red verdaderamente global de mentes brillantes.

A lo largo de su historia, CIFAR ha tenido un impacto notable en diversas áreas. En la década de 1990, sus becarios publicaron trabajos seminales sobre los determinantes de la salud de la población, influyendo directamente en las políticas de salud pública en Canadá. Sin embargo, su contribución más reconocida en el ámbito de la computación y la neurociencia llegó en el siglo XXI.

En 2004, Geoffrey Hinton comenzó a liderar el programa de Computación Neuronal y Percepción Adaptativa de CIFAR. Este programa reunió a figuras clave como Yoshua Bengio y Yann LeCun, quienes, junto a otros investigadores de diversas disciplinas, exploraron el poder de las redes neuronales. Sus trabajos confirmaron la convicción de Hinton sobre el potencial de estas estructuras para imitar la inteligencia humana, sentando las bases de lo que hoy conocemos como aprendizaje profundo (deep learning). Por sus avances conceptuales y de ingeniería en redes neuronales profundas, Hinton, Bengio y LeCun recibieron el Premio Turing en 2018, a menudo considerado el "Nobel de la computación".

Además de su apoyo a la investigación fundamental, CIFAR también ha sido un actor clave en iniciativas estratégicas nacionales. En 2017, el gobierno de Canadá le encargó desarrollar y liderar la Estrategia Pan-Canadiense de Inteligencia Artificial, una iniciativa multimillonaria para fomentar la investigación y el talento en IA, un campo intrínsecamente ligado a la neurociencia computacional.

Redes Neuronales Recurrentes (RNN) en Neurociencia

Las Redes Neuronales Recurrentes (RNN) se han convertido en una herramienta fundamental en neurociencia computacional para generar y evaluar hipótesis mecanicistas sobre la cognición. Dada la naturaleza altamente recurrente de la conectividad cerebral en múltiples escalas espaciales, las RNN son modelos particularmente adecuados para simular sistemas neuronales.

A diferencia de las redes neuronales de avance (feedforward) que procesan información en una sola dirección, las RNN tienen conexiones que permiten que la información persista a través del tiempo. Esto las hace ideales para modelar tareas que implican secuencias temporales, como el procesamiento del lenguaje, el comportamiento motor o, crucialmente para la neurociencia, la memoria de trabajo y la toma de decisiones a lo largo del tiempo.

En el contexto de la neurociencia, las RNN "biológicamente plausibles" a menudo se refieren a modelos con propiedades que se asemejan más a las neuronas reales, como la "fuga" (leaky) en sus estados internos. Estos modelos se basan en la reverberación de la actividad a través de una población neuronal para integrar información a lo largo del tiempo y mantenerla en ausencia de entrada continua, lo que se alinea con la doctrina de la población en neurociencia, donde las poblaciones neuronales, más que neuronas individuales, forman unidades computacionales fundamentales.

El Desafío de Entrenar RNNs para Dependencias Temporales Largas

A pesar de su relevancia, entrenar RNNs biológicamente plausibles para tareas que requieren mantener información o integrar entradas durante largos períodos de tiempo (dependencias temporales largas) presenta un desafío técnico importante. El método de entrenamiento estándar, conocido como retropropagación a través del tiempo (backpropagation through time), sufre de problemas de estabilidad del gradiente.

Cuanto mayor es el número de pasos de tiempo que la red debe computar, más probable es que los gradientes (las señales que guían el aprendizaje) se vuelvan catastróficamente grandes (explotando) o pequeños (desvaneciéndose). Esto último, el problema del gradiente desvanecido, dificulta que la red aprenda a depender de eventos que ocurrieron mucho antes en la secuencia.

Para mitigar esto, se desarrollaron arquitecturas como las Redes de Memoria a Largo Corto Plazo (LSTM) y las Unidades Recurrentes Gated (GRU). Estos modelos utilizan "mecanismos de puerta" sofisticados para controlar el flujo de información y almacenar memoria en celdas auto-sostenidas, superando eficazmente los problemas de gradiente. Sin embargo, el texto señala una limitación crucial desde una perspectiva neurocientífica: hay una escasez de evidencia experimental que respalde la existencia de mecanismos de puerta en el cerebro que funcionen de manera tan flexible y no restringida como en LSTMs o GRUs. Además, una hipótesis central en neurociencia es que la función de memoria emerge de la dinámica de la población neuronal, no de unidades auto-sostenidas.

Métodos Innovadores para un Entrenamiento Eficiente y Plausible

Dado el dilema entre la eficiencia del entrenamiento (con arquitecturas no plausibles) y la plausibilidad biológica (con arquitecturas difíciles de entrenar para tareas complejas), la investigación busca métodos que permitan superar las dificultades de entrenamiento de las RNNs "vainilla" sin añadir elementos artificiales que comprometan su similitud con los circuitos neuronales reales.

El texto explora y propone varias estrategias basadas en la idea de modificar el proceso de entrenamiento temporalmente para mejorar la convergencia, revirtiendo a la arquitectura original una vez completado el entrenamiento:

Discretización Gruesa (CD - Coarsened Discretization): Consiste en entrenar la red utilizando pasos de tiempo más grandes de lo normal al principio. Esto reduce el número total de pasos de tiempo sobre los que se realiza la retropropagación, ayudando a la estabilidad del gradiente. La "gruesa" se reduce gradualmente a lo largo del entrenamiento hasta volver al paso de tiempo original.
Conexiones de Salto a Través del Tiempo (SCTT - Skip Connections Through Time): Implementa conexiones directas (atajos) entre estados no consecutivos en el tiempo durante el entrenamiento. Esto crea rutas más cortas para la retropropagación del gradiente. La influencia de estas conexiones de salto se reduce gradualmente a lo largo del entrenamiento hasta que desaparecen.
Conexiones de Salto Alineadas con la Dinámica (DASC - Dynamics-Aligned Skip Connections): Combina la idea de CD y SCTT. Utiliza una discretización más gruesa para calcular un estado futuro estimado y luego mezcla (promedia ponderadamente) este estimado con el estado "verdadero" calculado con el paso de tiempo original. Esto intenta mantener las ventajas de los atajos para el gradiente mientras se asegura que la dinámica modificada durante el entrenamiento esté más alineada con la dinámica real de la red. La mezcla también se ajusta gradualmente hasta depender solo de la dinámica real.

La clave de estos métodos es que las modificaciones (pasos de tiempo grandes, conexiones de salto) solo se aplican durante la fase de entrenamiento. Una vez que la red ha aprendido la tarea, estas modificaciones se eliminan, dejando una red con la arquitectura original y biológicamente plausible lista para ser analizada y comparada con datos neuronales experimentales.

Comparación de Métodos de Entrenamiento en Tareas Cognitivas

El estudio presenta experimentos para evaluar la eficiencia de estos métodos en una suite de 16 tareas cognitivas estándar, incluyendo algunas que requieren dependencias a largo plazo (como tareas de memoria demorada o toma de decisiones demorada). La eficiencia se mide principalmente por el número de pasos de entrenamiento necesarios para alcanzar un alto rendimiento (0.99) y, secundariamente, por el tiempo de reloj y las operaciones de punto flotante.

El texto muestra que las tareas con dependencias a largo plazo son significativamente más difíciles de entrenar para las RNNs biológicamente plausibles utilizando métodos convencionales (control) o solo CD. En algunas de estas tareas difíciles, los métodos control y CD simplemente no logran alcanzar el umbral de rendimiento deseado dentro de un número razonable de pasos de entrenamiento.

En contraste, SCTT y DASC demuestran ser mucho más efectivos. Requirieron menos pasos de entrenamiento en la mayoría de las tareas difíciles y, crucialmente, lograron aprender tareas donde los métodos control y CD fallaron. Aunque CD puede ser más rápido por paso de entrenamiento (debido al paso de tiempo más grande), su menor tasa de éxito y su incapacidad para manejar dependencias muy largas limitan su utilidad.

Una comparación de los métodos en tareas que requieren dependencias a largo plazo se resume en la siguiente tabla (basada en los datos proporcionados, mostrando los pasos de entrenamiento promedio en unidades de 10^4):

Tarea	Control	CD 10	SCTT 10	SCTT 40	DASC 10	DASC 40
dmc	0.196	0.251	1.089	0.907	0.244	0.343
dnmc	0.203	0.282	1.089	0.916	0.252	0.558
dnms	1.167	1.311	1.269	1.299	0.993	1.065
dms	1.324	1.079	1.293	1.282	1.469	1.041
ddmd	1.900	1.465	1.270	1.018	1.757	1.059
ddm	2.413	2.030	1.283	1.088	2.129	1.055
msddm	3.434	2.096	1.269	1.071	2.196	1.121
danti	failed	failed	1.268	1.088	failed	1.005
dgo	failed	failed	1.106	1.268	failed	1.003

Como se observa, para tareas como 'danti' y 'dgo', los métodos control y CD fallaron, mientras que SCTT y DASC lograron entrenar con éxito. Esto subraya la ventaja de los métodos basados en conexiones de salto para tareas con dependencias temporales muy extendidas.

El estudio también analiza cómo estos métodos afectan la dinámica interna de la red durante el entrenamiento. CD a menudo produce una estimación pobre de la dinámica real. SCTT, al promediar estados distantes, puede "atenuar" la dinámica. DASC, al incorporar una aproximación de la dinámica en el salto, logra mantener los estados de la red durante el entrenamiento más alineados con la dinámica real de la red sin las conexiones de salto, lo que se considera una ventaja para la fiabilidad del modelo.

Colocación Estratégica de Conexiones de Salto

Más allá de la aplicación periódica de conexiones de salto (como en SCTT y DASC), el estudio explora la idea de colocar estratégicamente estas conexiones para tareas que abarcan múltiples ensayos, como una tarea de reversión de reglas visuomotoras. En esta tarea, la red debe mantener una regla en memoria a través de ensayos consecutivos y adaptarse cuando la regla cambia implícitamente.

Entrenar RNNs biológicamente plausibles en secuencias de múltiples ensayos es aún más desafiante debido al número masivo de pasos de tiempo involucrados. El estudio encontró que añadir conexiones de salto adicionales específicamente al inicio de cada ensayo consecutivo, minimizando la interrupción de la dinámica dentro del ensayo pero facilitando el flujo de gradientes a través de las transiciones de ensayo, mejoró significativamente la proporción de redes que lograron aprender la tarea.

La siguiente tabla muestra la proporción de redes entrenadas con éxito (de 100) en la tarea de reversión de reglas, comparando los resultados base con la adición de conexiones de salto estratégicas:

Método	Base	+ Conexiones Estratégicas
Control	0.67	0.76
CD 10	0.19	0.25
SCTT 40	0.71	0.81
DASC 40	0.71	0.78

Estos resultados demuestran que la flexibilidad de las conexiones de salto permite adaptarlas a la estructura específica de la tarea para mejorar aún más la eficiencia del entrenamiento.

Discusión y Futuras Implicaciones

El desarrollo de métodos como SCTT y DASC representa un avance crucial para la neurociencia computacional. Permiten entrenar modelos de RNN biológicamente plausibles en tareas cognitivas que requieren dependencias temporales largas, algo que era difícil o imposible con enfoques convencionales sin recurrir a arquitecturas menos plausibles como LSTMs o GRUs.

Aunque entrenar RNNs biológicamente plausibles sigue siendo computacionalmente intensivo, estos nuevos métodos mejoran la eficiencia y, lo que es más importante, la fidelidad del modelo. Al permitir que los investigadores estudien la emergencia de computaciones complejas, como la memoria y la integración de información a largo plazo, dentro de arquitecturas que se asemejan más a la biología real, estos métodos abren la puerta a la formulación de teorías más precisas sobre cómo el cerebro logra estas funciones.

Estos avances facilitarán el desarrollo de modelos para una amplia gama de funciones cognitivas, incluyendo la acumulación de evidencia, la navegación espacial, el procesamiento de escenas, el comportamiento guiado por reglas, el aprendizaje de reglas complejas y el comportamiento adaptativo. A medida que la neurociencia experimental permite registrar la actividad de poblaciones neuronales cada vez más grandes durante tareas complejas, la capacidad de entrenar modelos computacionales de alta fidelidad se vuelve indispensable para interpretar estos datos.

El texto también señala que, aunque estos métodos mejoran el entrenamiento de modelos plausibles, la competencia computacional a nivel humano aún requiere arquitecturas como los transformers, actualmente desconocidas en neurociencia. Esto sugiere que se necesita más trabajo para descubrir mecanismos biológicamente plausibles que puedan lograr capacidades de aprendizaje a largo plazo comparables.

Preguntas Frecuentes (FAQs)

¿Qué significa CIFAR?
CIFAR significa Canadian Institute for Advanced Research (Instituto Canadiense de Investigación Avanzada).

¿Es CIFAR solo una organización canadiense?
Aunque tiene su sede en Canadá y recibe financiación significativa del gobierno canadiense, CIFAR es una organización de investigación global que reúne a investigadores de más de 20 países.

¿Cuál es la principal contribución de CIFAR relacionada con la neurociencia y la IA?
CIFAR fue un hogar temprano para pioneros del aprendizaje profundo como Geoffrey Hinton, Yoshua Bengio y Yann LeCun, apoyando su investigación fundamental. También lidera la Estrategia Pan-Canadiense de Inteligencia Artificial.

¿Por qué se usan RNNs en neurociencia?
Las RNNs son adecuadas para modelar sistemas neuronales debido a su conectividad recurrente, similar a la del cerebro, lo que les permite procesar información secuencial y modelar funciones como la memoria y la toma de decisiones a lo largo del tiempo.

¿Cuál es el principal desafío al entrenar RNNs biológicamente plausibles en tareas cognitivas?
El principal desafío es el problema del gradiente desvanecido (y explotando) durante la retropropagación a través del tiempo, que dificulta que la red aprenda dependencias temporales largas necesarias para tareas de memoria o integración prolongada.

¿Por qué LSTMs y GRUs no son siempre ideales para modelar el cerebro?
Aunque eficientes para el entrenamiento, sus sofisticados mecanismos de puerta no tienen una clara contraparte experimental en la biología neuronal y la forma en que almacenan memoria difiere de la hipótesis de la dinámica de población en neurociencia.

¿Cómo ayudan los métodos CD, SCTT y DASC a superar las dificultades de entrenamiento?
Estos métodos modifican temporalmente el proceso de entrenamiento (usando pasos de tiempo más grandes o conexiones de salto) para mejorar la estabilidad del gradiente y la eficiencia del aprendizaje, revirtiendo a la arquitectura original y biológicamente plausible una vez que el entrenamiento ha finalizado.

¿Cuál de los métodos propuestos (CD, SCTT, DASC) parece más prometedor?
SCTT y DASC demostraron ser más efectivos que el control y CD para entrenar RNNs en tareas con dependencias a largo plazo, logrando aprender tareas donde los otros métodos fallaron. DASC, en particular, busca mantener la dinámica de la red más alineada con la dinámica real durante el entrenamiento, lo que se considera una ventaja.

¿Pueden las conexiones de salto ayudar en tareas más complejas, como las que involucran múltiples ensayos?
Sí, el estudio mostró que la colocación estratégica de conexiones de salto, por ejemplo, al inicio de cada ensayo, puede mejorar aún más la eficiencia del entrenamiento en tareas complejas de múltiples ensayos.

Conclusión

La investigación en neurociencia computacional se beneficia enormemente del trabajo de organizaciones como CIFAR, que fomentan la colaboración y la investigación fundamental, incluyendo el desarrollo de herramientas clave como las redes neuronales. Superar las limitaciones técnicas en el entrenamiento de modelos biológicamente plausibles, como las RNNs para tareas de memoria y cognición a largo plazo, es vital para avanzar en nuestra comprensión del cerebro. Los métodos innovadores como SCTT y DASC ofrecen caminos prometedores para lograrlo, permitiendo a los investigadores explorar la complejidad de la función cerebral con modelos que se asemejan más a la realidad biológica, abriendo nuevas fronteras en el estudio de la mente.

Si quieres conocer otros artículos parecidos a CIFAR y Redes Neuronales en Neurociencia puedes visitar la categoría Neurociencia.

Jesús Porta Etessam

Soy licenciado en Medicina y Cirugía y Doctor en Neurociencias por la Universidad Complutense de Madrid. Me formé como especialista en Neurología realizando la residencia en el Hospital 12 de Octubre bajo la dirección de Alberto Portera y Alfonso Vallejo, donde también ejercí como adjunto durante seis años y fui tutor de residentes. Durante mi formación, realicé una rotación electiva en el Memorial Sloan Kettering Cancer Center.Posteriormente, fui Jefe de Sección en el Hospital Clínico San Carlos de Madrid y actualmente soy jefe de servicio de Neurología en el Hospital Universitario Fundación Jiménez Díaz. Tengo el honor de ser presidente de la Sociedad Española de Neurología, además de haber ocupado la vicepresidencia del Consejo Español del Cerebro y de ser Fellow de la European Academy of Neurology.A lo largo de mi trayectoria, he formado parte de la junta directiva de la Sociedad Española de Neurología como vocal de comunicación, relaciones internacionales, director de cultura y vicepresidente de relaciones institucionales. También dirigí la Fundación del Cerebro.Impulsé la creación del grupo de neurooftalmología de la SEN y he formado parte de las juntas de los grupos de cefalea y neurooftalmología. Además, he sido profesor de Neurología en la Universidad Complutense de Madrid durante más de 16 años.