What is brain-inspired AI?

IA Inspirada en el Cerebro: Modelos Jerárquicos

Valoración: 4.21 (2176 votos)

La búsqueda de crear inteligencia artificial (IA) que realmente comprenda y actúe de forma sofisticada ha llevado a los investigadores a mirar a la fuente de inteligencia más impresionante que conocemos: el cerebro humano. La IA inspirada en el cerebro, o IA bio-inspirada, no busca simplemente replicar el cerebro célula a célula, sino emular su arquitectura, sus principios de procesamiento de información y sus mecanismos de aprendizaje para desarrollar sistemas artificiales más capaces, eficientes y robustos. Este enfoque, que fusiona la neurociencia con la informática, está dando lugar a modelos fascinantes que abren nuevas fronteras en la capacidad de las máquinas para percibir, aprender y razonar.

What is brain-inspired AI?
BIAI refers to AI systems and algorithms that take inspiration from the biological structure, function, and principles of the human brain and neural system.Aug 27, 2024

Dentro de este campo emergente, un área particularmente fructífera es la de los modelos jerárquicos. Estos modelos se basan en la observación fundamental de que el cerebro humano procesa la información de manera estructurada y por niveles. Desde las entradas sensoriales más básicas, como la detección de bordes o sonidos simples, hasta la comprensión de conceptos abstractos y complejos, la información fluye a través de una jerarquía de áreas cerebrales, cada una construyendo sobre la representación de la capa anterior. La emulación de este procesamiento jerárquico en las redes neuronales artificiales ha sido clave para el éxito de muchos modelos modernos de aprendizaje profundo.

Índice de Contenido

Modelos Jerárquicos en IA Bio-Inspirada

El procesamiento jerárquico es un principio organizativo fundamental tanto en el cerebro biológico como en muchos modelos de IA de vanguardia. En el cerebro, esta jerarquía permite descomponer tareas complejas en subtareas más simples y construir representaciones de alto nivel a partir de características de bajo nivel. Por ejemplo, en el sistema visual, las neuronas en etapas tempranas responden a características simples como líneas y ángulos, mientras que las neuronas en etapas posteriores responden a objetos complejos como rostros o escenas. Imitando este principio, las redes neuronales profundas organizan entidades (neuronas o grupos de neuronas) en capas, donde cada capa representa diferentes niveles de abstracción o procesamiento de la información de entrada.

Exploraremos algunos de los modelos jerárquicos más representativos y cómo se inspiran en la arquitectura y el funcionamiento del cerebro humano. Estos modelos constituyen la base teórica de muchos algoritmos avanzados utilizados hoy en día.

Redes Neuronales Convolucionales (CNNs)

Las CNNs son un tipo especializado de redes neuronales artificiales diseñadas específicamente para procesar datos con una estructura de cuadrícula conocida, como imágenes. Su concepción se inspira directamente en el trabajo pionero de los biólogos David Hubel y Torsten Wiesel sobre la corteza visual del cerebro de los gatos en la década de 1960. Hubel y Wiesel descubrieron el fenómeno de los campos receptivos: neuronas individuales en la corteza visual primaria que responden fuertemente a características visuales específicas dentro de un área particular del campo visual. Identificaron dos tipos de células: las células simples, que responden a la presencia de características como líneas o bordes con una orientación y posición específicas, y las células complejas, que tienen campos receptivos más grandes y responden a las mismas características, pero son menos sensibles a su posición exacta dentro del campo.

Esta investigación seminal proporcionó una base biológica para la idea de que el sistema visual procesa la información de forma jerárquica, detectando características simples localizadas y luego combinándolas para reconocer patrones más complejos. Las CNNs emulan este principio. Al igual que nuestro sistema visual se enfoca inicialmente en características locales prominentes (como los ojos o las patas de un perro en una imagen), una CNN comienza identificando características de bajo nivel, como bordes y curvas, mediante la aplicación de filtros (núcleos de convolución) sobre la imagen de entrada.

A través de una serie de capas convolucionales, estas características de bajo nivel se combinan progresivamente para formar características de alto nivel más complejas. Por ejemplo, la combinación de bordes puede formar formas, y la combinación de formas puede formar objetos. Dado que las características de alto nivel se componen de múltiples convoluciones de características de bajo nivel, encapsulan información más rica y comprensiva de la imagen original. Este proceso de construcción jerárquica de representaciones permite a las CNNs entender y clasificar imágenes de manera efectiva.

Las CNNs utilizan capas convolucionales para aplicar filtros que extraen características jerárquicas como bordes, texturas y formas. Esto les permite capturar eficazmente las dependencias espaciales y los patrones dentro de los datos visuales. Después de las capas convolucionales, a menudo se utilizan capas de pooling (submuestreo) para reducir las dimensiones espaciales de la representación. Aunque útil para reducir la complejidad computacional y ayudar a prevenir el sobreajuste (overfitting), el pooling, especialmente el max pooling, puede llevar a la pérdida de información espacial valiosa.

La combinación de capas convolucionales, de pooling y, finalmente, capas completamente conectadas, permite a las CNNs sobresalir en tareas como detección de objetos, segmentación de imágenes y clasificación de imágenes, convirtiéndolas en un componente fundamental de las aplicaciones modernas de visión por computadora. Sin embargo, las CNNs enfrentan desafíos, incluyendo la necesidad de grandes conjuntos de datos etiquetados para lograr un alto rendimiento, altos costos computacionales, y la mencionada posible pérdida de información espacial debido al pooling. Además, pueden tener dificultades para comprender jerarquías espaciales complejas y relaciones parte-todo precisas, lo que ha motivado el desarrollo de arquitecturas alternativas.

Redes de Cápsulas (CapsNets)

Propuestas por Geoffrey Hinton y su equipo en 2017, las CapsNets surgieron como una respuesta directa a las limitaciones percibidas en la arquitectura tradicional de las CNNs, particularmente en relación con el uso de capas de pooling. Hinton argumentó que el pooling, a pesar de su éxito generalizado, es un error significativo porque descarta información espacial valiosa al solo pasar las neuronas más activas a la siguiente capa. Esta pérdida de detalles cruciales puede dificultar la comprensión de las relaciones espaciales entre las partes de un objeto.

Las CapsNets buscan preservar esta jerarquía espacial. En lugar de neuronas escalares (que solo emiten una activación), las CapsNets utilizan "cápsulas". Una cápsula es un grupo de neuronas cuya actividad conjunta codifica tanto la probabilidad de que una entidad (como un objeto o una parte de un objeto) esté presente en la imagen, como sus propiedades (como posición, tamaño, orientación, textura, etc.) representadas por un vector de actividad. Este enfoque vectorial permite a las CapsNets retener mucha más información espacial detallada que las CNNs tradicionales.

La clave del funcionamiento de las CapsNets es un mecanismo llamado "routing by agreement" (enrutamiento por acuerdo). Este proceso iterativo permite que las cápsulas de bajo nivel "voten" sobre la existencia y las propiedades de las cápsulas de alto nivel. Las conexiones entre cápsulas se fortalecen dinámicamente basándose en el acuerdo entre las predicciones de las cápsulas de bajo nivel. Esto permite que la red aprenda a agrupar características de bajo nivel (como bordes o formas) en entidades de alto nivel (como objetos completos) de una manera que respeta la estructura espacial y las relaciones parte-todo.

Preservar la jerarquía espacial de esta manera lleva a una mejor generalización y robustez en las CapsNets, especialmente en tareas que implican variaciones en el punto de vista o la comprensión de cómo las partes se relacionan para formar un todo. Sin embargo, las CapsNets también enfrentan desafíos, como una mayor complejidad computacional en comparación con las CNNs y la necesidad de algoritmos de entrenamiento más sofisticados. El campo aún está en desarrollo, y la optimización y las aplicaciones prácticas continúan siendo áreas activas de investigación.

Las CapsNets han demostrado ser prometedoras en diversas aplicaciones. En imágenes médicas, han mostrado una mayor precisión en tareas como la detección de tumores y la segmentación de órganos al mantener la integridad espacial de las estructuras anatómicas. En visión por computadora, se utilizan para clasificación y reconocimiento de objetos, ofreciendo una mejor robustez a transformaciones afines (como rotación o escalado) en comparación con las CNNs. También se están explorando en tareas de Procesamiento del Lenguaje Natural (PLN) como análisis de sentimiento, beneficiándose de su capacidad para capturar relaciones complejas dentro de secuencias.

Redes Neuronales Recurrentes (RNNs)

Las RNNs están diseñadas para procesar datos secuenciales, manteniendo un estado de memoria interno que les permite "recordar" información de pasos anteriores en la secuencia. Su diseño se inspira en la capacidad del cerebro humano para procesar información en secuencias y retener memoria a lo largo del tiempo. Al igual que nuestro cerebro recuerda experiencias pasadas para comprender eventos actuales, las RNNs utilizan su memoria interna para procesar y contextualizar la información de pasos previos en una secuencia.

Consideremos cómo entendemos una oración. Cuando leemos "el gato se sentó en la alfombra", nuestro cerebro no procesa cada palabra de forma aislada. Retiene el contexto proporcionado por las palabras anteriores para dar sentido a la oración completa. Recordamos "el gato" mientras leemos "se sentó en la alfombra", lo que nos permite comprender el significado de la oración en su contexto secuencial.

De manera similar, las RNNs manejan secuencias manteniendo un estado oculto (hidden state) que almacena información de pasos anteriores. Con cada nuevo elemento en la secuencia (por ejemplo, una palabra en una oración, un punto de datos en una serie temporal), la RNN actualiza este estado oculto incorporando tanto la entrada actual como el estado oculto del paso anterior. Este mecanismo permite a las RNNs retener contexto a largo plazo y hacer predicciones o tomar decisiones informadas basadas en la secuencia completa de datos.

Por ejemplo, las RNNs son ampliamente utilizadas en traducción automática. Al traducir una oración del inglés al español, una RNN procesa las palabras en inglés una por una, manteniendo el contexto de la oración completa en su estado oculto. Este contexto es crucial para generar la traducción correcta en español, especialmente en estructuras de oración complejas donde la relación entre las palabras debe entenderse secuencialmente. Versiones avanzadas como las LSTM (Long Short-Term Memory) y las GRU (Gated Recurrent Unit) fueron desarrolladas para mitigar el problema del gradiente evanescente, permitiendo a las RNNs capturar y utilizar eficazmente dependencias de largo alcance en datos secuenciales.

Las RNNs han encontrado numerosas aplicaciones en el mundo real gracias a su habilidad para procesar y analizar datos secuenciales. En el campo del PLN, impulsan avances en traducción automática, análisis de sentimiento, modelado de lenguaje y generación de texto, permitiendo interpretaciones de texto más precisas y conscientes del contexto. En reconocimiento de voz, convierten el lenguaje hablado en texto escrito, mejorando asistentes virtuales. En finanzas, ayudan a predecir precios de acciones analizando series temporales. En atención médica, se emplean para diagnóstico temprano analizando historiales de pacientes, y en análisis de video para comprender y predecir secuencias de frames, haciéndolas invaluables en campos que requieren predicción secuencial y reconocimiento de patrones temporales.

Redes de Creencias Profundas (DBNs)

Las DBNs son modelos generativos compuestos por máquinas de Boltzmann restringidas (RBMs) apiladas. Estos modelos aprenden capa por capa utilizando técnicas no supervisadas, como la divergencia contrastiva. La inspiración neurocientífica proviene de la idea de que la información sensorial en el cerebro se procesa a través de múltiples etapas, con cada etapa extrayendo características más abstractas y complejas de la entrada inicial. De manera similar al cerebro, las DBNs procesan datos a través de múltiples capas, donde cada capa aprende representaciones progresivamente más complejas.

Una DBN se construye apilando varias RBMs. La salida de una capa RBM sirve como entrada para la siguiente. El entrenamiento generalmente se realiza de forma no supervisada, capa por capa. Primero, se entrena la primera RBM para aprender características de bajo nivel de los datos de entrada. Luego, la activación aprendida de la primera RBM se usa como entrada para entrenar la segunda RBM, y así sucesivamente. Una vez que todas las RBMs están entrenadas, la red puede ser ajustada (fine-tuned) con un algoritmo supervisado, como retropropagación, para una tarea específica como clasificación.

Gracias a su capacidad para aprender representaciones complejas a partir de grandes conjuntos de datos sin la necesidad de una supervisión extensiva en las capas iniciales, las DBNs han sido utilizadas en numerosas aplicaciones. En reconocimiento de voz, han mejorado la precisión de la transcripción aprendiendo características jerárquicas del audio. En reconocimiento de imágenes, se utilizan para mejorar la detección y clasificación de objetos capturando patrones y texturas intrincadas. En PLN, ayudan a comprender y generar lenguaje humano, mejorando el rendimiento en tareas como el análisis de sentimiento. Además, las DBNs se aplican en sistemas de recomendación, donde analizan comportamientos y preferencias de usuarios para sugerir contenido o productos relevantes. Su habilidad para modelar representaciones profundas y por capas hace que las DBNs sean valiosas en cualquier dominio que requiera interpretación y predicción sofisticada de datos.

Comparativa: CNNs vs CapsNets

CaracterísticaCNNsCapsNets
Unidad BásicaNeuronas escalares (activación)Cápsulas (vector: probabilidad + propiedades)
Manejo de Jerarquía EspacialPierde información espacial con PoolingPreserva jerarquía espacial con Routing by Agreement
Robustez a Variaciones (vista, pose)Menor, requiere más datos para entrenamientoMayor, codifica propiedades como pose
Complejidad ComputacionalMenor (Pooling reduce dimensiones)Mayor (Routing by Agreement es iterativo)
Requisitos de DatosGeneralmente requiere grandes datasets etiquetadosPotencialmente mejor con datasets más pequeños (en teoría)
Madurez y AplicacionesMuy maduras, amplia adopción industrialCampo emergente, investigación activa

Preguntas Frecuentes

¿Qué significa que una IA esté "inspirada en el cerebro"?
Significa que su diseño o sus algoritmos de aprendizaje se basan en principios observados en el funcionamiento del cerebro biológico, como el procesamiento jerárquico, la plasticidad sináptica, o la organización modular, en lugar de ser puramente matemáticos o lógicos.

¿Son las CNNs, CapsNets, RNNs y DBNs los únicos modelos jerárquicos inspirados en el cerebro?
No, existen otros modelos como las Echo State Networks (ESNs) mencionadas brevemente en el texto fuente, y la investigación en este campo es constante. Sin embargo, los modelos descritos son algunos de los ejemplos más representativos y con mayor impacto en la práctica.

¿Cuál es la principal ventaja de las CapsNets sobre las CNNs?
La principal ventaja teórica de las CapsNets es su capacidad para preservar información espacial detallada y comprender mejor las relaciones parte-todo, lo que las hace potencialmente más robustas a cambios de perspectiva y requiere menos datos para reconocer un objeto desde diferentes ángulos.

¿Para qué tipo de datos son más adecuadas las RNNs?
Las RNNs son ideales para datos secuenciales, donde el orden y el contexto de los elementos son importantes. Esto incluye texto (secuencias de palabras), audio (secuencias de sonidos), series temporales (secuencias de mediciones a lo largo del tiempo) y video (secuencias de imágenes).

Conclusión

La IA inspirada en el cerebro, y en particular el desarrollo de modelos jerárquicos como las CNNs, CapsNets, RNNs y DBNs, representa un enfoque poderoso para construir sistemas de inteligencia artificial más sofisticados y capaces. Al emular principios fundamentales del procesamiento cerebral, estos modelos han logrado éxitos notables en una amplia gama de tareas, desde comprender imágenes y lenguaje hasta predecir tendencias y diagnosticar enfermedades. Aunque cada arquitectura tiene sus fortalezas y debilidades, la investigación continua en esta intersección entre neurociencia e informática promete seguir revelando nuevas formas de desbloquear el potencial de la inteligencia artificial, acercándonos a sistemas que no solo procesan datos, sino que verdaderamente comprenden el mundo que los rodea de una manera más parecida a la nuestra.

Si quieres conocer otros artículos parecidos a IA Inspirada en el Cerebro: Modelos Jerárquicos puedes visitar la categoría Neurociencia.

Foto del avatar

Jesús Porta Etessam

Soy licenciado en Medicina y Cirugía y Doctor en Neurociencias por la Universidad Complutense de Madrid. Me formé como especialista en Neurología realizando la residencia en el Hospital 12 de Octubre bajo la dirección de Alberto Portera y Alfonso Vallejo, donde también ejercí como adjunto durante seis años y fui tutor de residentes. Durante mi formación, realicé una rotación electiva en el Memorial Sloan Kettering Cancer Center.Posteriormente, fui Jefe de Sección en el Hospital Clínico San Carlos de Madrid y actualmente soy jefe de servicio de Neurología en el Hospital Universitario Fundación Jiménez Díaz. Tengo el honor de ser presidente de la Sociedad Española de Neurología, además de haber ocupado la vicepresidencia del Consejo Español del Cerebro y de ser Fellow de la European Academy of Neurology.A lo largo de mi trayectoria, he formado parte de la junta directiva de la Sociedad Española de Neurología como vocal de comunicación, relaciones internacionales, director de cultura y vicepresidente de relaciones institucionales. También dirigí la Fundación del Cerebro.Impulsé la creación del grupo de neurooftalmología de la SEN y he formado parte de las juntas de los grupos de cefalea y neurooftalmología. Además, he sido profesor de Neurología en la Universidad Complutense de Madrid durante más de 16 años.

Subir