Campo Receptivo: Clave en Visión y CNNs

08/09/2017

★★★★★Valoración: 3.57 (4892 votos)

El concepto de campo receptivo es fundamental tanto en neurociencia como en el campo de la inteligencia artificial, particularmente en la visión por computadora. En esencia, el campo receptivo de una neurona se refiere a la región específica del espacio sensorial (como el espacio visual en el ojo o una porción de una imagen de entrada en una red neuronal artificial) que influye en la actividad o respuesta de esa neurona. Es la ventana a través de la cual la neurona "observa" el mundo o los datos.

Este concepto fue identificado por primera vez en el sistema visual biológico y ha sido una fuente clave de inspiración para el diseño de arquitecturas de redes neuronales artificiales, especialmente las Redes Neuronales Convolucionales (CNNs), que son predominantes en tareas de procesamiento de imágenes.

What is the receptive field in CNS? — A receptive field refers to the area of sensory input that can modify the firing rate of a specific neuron. In vision, receptive fields are organized concentrically with an excitatory center and an inhibitory surround or vice versa.

Índice de Contenido

El Campo Receptivo en el Sistema Visual Biológico
El Campo Receptivo en Redes Neuronales Convolucionales (CNNs)
- Determinación y Cálculo del Campo Receptivo en CNNs
- Jerarquía Espacial en CNNs
Inspiración Biológica vs. Implementación en IA
¿Por Qué es Importante Entender el Campo Receptivo?
Tabla Comparativa: Campo Receptivo Biológico vs. en CNNs
Preguntas Frecuentes sobre el Campo Receptivo

El Campo Receptivo en el Sistema Visual Biológico

En el sistema nervioso central (SNC), las neuronas en las primeras vías sensoriales, como la visual, auditiva o somatosensorial, poseen campos receptivos. Si bien el concepto se aplica a múltiples modalidades, es en la visión donde ha sido más extensamente estudiado y ha tenido un impacto directo en la IA.

Un campo receptivo visual clásico de una neurona es la región del espacio visual que desempeña un papel en la activación de la neurona, junto con una descripción de las propiedades estructurales de ese espacio visual que la excitan o inhiben.

Campos Receptivos en la Retina

Consideremos, por ejemplo, las células ganglionares en la retina, que son la capa de salida antes de que la información visual viaje al cerebro a través del nervio óptico. Para determinar el campo receptivo de una de estas células, se puede registrar su actividad mientras se presentan estímulos visuales (como puntos de luz) en diferentes ubicaciones de una pantalla. Las ubicaciones que afectan la tasa de disparo de la célula forman parte de su campo receptivo.

Los campos receptivos de las células ganglionares de la retina tienen una estructura característica de "centro-periferia" (center-surround). Existen dos tipos principales:

Centro-ON, Periferia-OFF: La neurona se excita (aumenta su tasa de disparo) cuando la luz incide en el centro de su campo receptivo y se inhibe (disminuye su tasa de disparo) cuando la luz incide en la periferia.
Centro-OFF, Periferia-ON: La neurona se inhibe cuando la luz incide en el centro y se excita cuando la luz incide en la periferia.

Estas estructuras son simétricas y circulares y permiten la detección de contrastes y bordes simples. El tamaño del campo receptivo en la retina varía; es más pequeño en la fóvea (la región de mayor agudeza visual) y más grande en la periferia, lo que refleja la distribución de la capacidad de procesamiento visual.

What is a receptive field in a neural network? — In Convolutional Neural Networks (CNNs) used in computer vision, the receptive field refers to the region of the input image that a particular neuron in a convolutional layer is “looking at” or taking into account when making its predictions or feature extractions.

Campos Receptivos en el Córtex Visual (V1)

Después de pasar por el Núcleo Geniculado Lateral (LGN), una estación de relevo en el tálamo, la información visual llega al córtex visual primario (V1). Aquí, los campos receptivos se vuelven más complejos.

Inspirándose en los trabajos pioneros de Hubel y Wiesel, se identificaron dos tipos principales de células en V1 que han influido enormemente en la visión por computadora:

Células Simples: Estas células tienen campos receptivos que responden mejor a estímulos orientados linealmente, como bordes o barras de luz, en una posición específica dentro de su campo. Se les considera detectores de bordes localizados y orientados. Sus campos receptivos pueden aproximarse mediante filtros lineales (como filtros de Gabor).
Células Complejas: Estas células también responden a estímulos orientados, pero a diferencia de las células simples, su respuesta es menos sensible a la posición exacta del estímulo dentro de su campo receptivo. Tienen una cierta invarianza a la traslación. Se cree que integran la salida de varias células simples con propiedades de sintonización similares pero ligeramente desplazadas espacialmente.

La presencia de células con sintonización a la orientación y cierta invarianza a la posición en V1 es un paso crucial en el procesamiento jerárquico de la visión, permitiendo la detección de características más complejas a partir de los contornos básicos detectados en etapas tempranas.

Jerarquía Espacial y Mapas Topográficos

El sistema visual biológico está organizado jerárquicamente. Las neuronas en capas más profundas del procesamiento visual (como áreas corticales más allá de V1) tienen campos receptivos más grandes que integran información de áreas más amplias del campo visual. Esta jerarquía permite la detección de características de bajo nivel (bordes, texturas) en las primeras etapas y características de alto nivel (partes de objetos, objetos completos) a medida que se avanza en la vía de procesamiento.

Además, muchas áreas visuales en el cerebro exhiben topografía, lo que significa que las ubicaciones vecinas en el campo visual se representan en ubicaciones vecinas en la superficie cortical. Si bien esta correspondencia no siempre es perfecta (la fóvea, por ejemplo, ocupa una porción desproporcionadamente grande del córtex visual), mantiene una organización espacial que es fundamental para el procesamiento visual.

El Campo Receptivo en Redes Neuronales Convolucionales (CNNs)

Las CNNs, inspiradas en la estructura jerárquica y los campos receptivos locales del sistema visual biológico, utilizan el concepto de campo receptivo para procesar datos estructurados, como imágenes.

En una CNN, el campo receptivo de una neurona en una capa convolucional particular es la región de la imagen de entrada (o del mapa de características de la capa anterior) que influye en el valor de esa neurona. Es el área de la imagen original a la que la neurona está "prestando atención" al calcular su salida.

Determinación y Cálculo del Campo Receptivo en CNNs

El tamaño del campo receptivo de una neurona en una capa dada de una CNN está determinado por varios factores:

Tamaño del Kernel (o Filtro): El kernel es la pequeña matriz de pesos que se aplica sobre la entrada. Un kernel de tamaño NxN hace que cada neurona en la capa de salida mire una región de NxN de la entrada inmediata.
Stride (Paso): Es el número de píxeles que el kernel se desplaza sobre la entrada en cada paso. Un stride mayor reduce el solapamiento entre las áreas que procesan las neuronas vecinas y afecta cómo se expande el campo receptivo en capas profundas.
Padding (Relleno): A menudo se añade relleno (típicamente ceros) alrededor de los bordes de la entrada o de los mapas de características. El padding puede influir en el tamaño de los mapas de características de salida y, por lo tanto, indirectamente, en cómo se calcula el campo receptivo efectivo, a menudo ayudando a mantener la información de los bordes.
Profundidad de la Red: El campo receptivo de una neurona en una capa profunda se calcula recursivamente, teniendo en cuenta los tamaños de los kernels y los strides de todas las capas anteriores que la preceden. Las neuronas en capas más profundas tienen campos receptivos más grandes, cubriendo una porción mayor de la imagen de entrada original.

Podemos hablar de un "campo receptivo inmediato" (immediate RF) que es el área en la capa anterior que afecta directamente a una neurona, y un "campo receptivo efectivo" (effective RF) o "campo receptivo profundo" (deep RF) que es el área en la *entrada original* que afecta a la neurona en una capa profunda.

Jerarquía Espacial en CNNs

Al igual que en el sistema visual biológico, las CNNs procesan la información de manera jerárquica. Las primeras capas convolucionales tienen campos receptivos pequeños y aprenden a detectar características simples y localizadas, como bordes y esquinas (análogo a las células simples de V1). A medida que la información pasa por capas sucesivas (que a menudo incluyen capas de pooling o submuestreo análogas a las células complejas), las neuronas en capas más profundas integran información de campos receptivos más grandes. Esto les permite detectar características más complejas y abstractas, como texturas, partes de objetos e incluso objetos completos.

Las capas de pooling (como max pooling) juegan un papel crucial en este proceso. Al tomar el valor máximo (o promedio) de una pequeña región en el mapa de características anterior, introducen una cierta invarianza a la traslación (similar a las células complejas) y, al reducir el tamaño espacial del mapa de características, contribuyen significativamente al crecimiento del campo receptivo efectivo en las capas posteriores.

What is the receptive field of an afferent neuron? — The receptive field of a neuron is the area of sensory space (e.g., sound frequency in hearing, or physical location in touch) that, when stimulated, will affect the activity of the neuron.

Inspiración Biológica vs. Implementación en IA

La arquitectura de las CNNs, con sus capas alternadas de convolución (análogas a las células simples, aplicando filtros lineales) y pooling (análogas a las células complejas, proporcionando invarianza y reducción), es un claro ejemplo de cómo los principios de procesamiento biológico han inspirado el diseño de algoritmos de IA. El "modelo estándar" de la visión temprana en neurociencia, basado en la aplicación de filtros lineales (RF) seguidos de una no linealidad (L+NL), es la base de muchos modelos de neuronas individuales y se refleja en el bloque constructivo fundamental de las redes neuronales artificiales.

Sin embargo, es importante señalar que, si bien la inspiración es clara, la implementación en las CNNs es una simplificación y abstracción del complejo procesamiento que ocurre en el cerebro. Las CNNs son modelos muy exitosos en tareas de visión artificial, pero el cerebro sigue siendo mucho más sofisticado y capaz de manejar una amplia gama de tareas visuales en condiciones mucho más variadas de lo que las CNNs actuales pueden lograr, como demuestran las limitaciones de los modelos L+NL para explicar fenómenos complejos de percepción o manejar imágenes de alto rango dinámico (HDR).

¿Por Qué es Importante Entender el Campo Receptivo?

Comprender el campo receptivo en las CNNs es crucial por varias razones:

Interpretación del Modelo: Permite entender qué parte de la imagen de entrada influye en una neurona específica en una capa dada. Esto ayuda a interpretar qué tipo de características está aprendiendo a detectar esa neurona o esa capa.
Diseño de Arquitectura: El tamaño del campo receptivo influye en la capacidad de la red para capturar contexto espacial. Diseñadores de redes deben considerar cómo el tamaño del kernel, el stride y el número de capas afectan el crecimiento del campo receptivo efectivo para asegurarse de que las capas profundas puedan "ver" suficiente contexto para la tarea (por ejemplo, un campo receptivo lo suficientemente grande para detectar un objeto completo).
Resolución y Escala: El campo receptivo está relacionado con la escala de las características que una capa puede detectar. Las capas con campos receptivos pequeños detectan características de baja frecuencia espacial (detalles finos), mientras que las capas con campos receptivos grandes detectan características de alta frecuencia espacial (estructuras generales).

En resumen, el campo receptivo es un concepto unificador que describe la base del procesamiento local y jerárquico en sistemas visuales, tanto biológicos como artificiales. Su comprensión es clave para interpretar y diseñar modelos efectivos en visión por computadora.

Tabla Comparativa: Campo Receptivo Biológico vs. en CNNs

Característica	Campo Receptivo Biológico (Ej. Sistema Visual)	Campo Receptivo en CNNs
Definición	Región del espacio sensorial que influye en la actividad de una neurona.	Región de la imagen de entrada que influye en el valor de una neurona en una capa.
Ubicación Principal	Neuronas sensoriales (retina, LGN, córtex visual, etc.).	Neuronas en capas convolucionales.
Estructura Típica (Ej. Temprano)	Centro-periferia (Retina); Orientación selectiva, invarianza parcial a la posición (V1).	Determinada por el tamaño del kernel (filtro).
Cómo Crece Profundamente	Integración de entradas de neuronas con RFs más pequeños en capas anteriores (vía de procesamiento jerárquica).	Acumulación del efecto de kernel size y stride a través de múltiples capas convolucionales y de pooling.
Función	Detección de contraste, bordes, orientación; construcción de representaciones jerárquicas del mundo visual.	Extracción de características locales (bordes, texturas) en capas tempranas; detección de patrones complejos y objetos en capas profundas.
Inspiración Mutua	El concepto biológico inspiró el diseño de CNNs.	Las CNNs proporcionan modelos computacionales para entender el procesamiento biológico.

Preguntas Frecuentes sobre el Campo Receptivo

¿Cuál es la diferencia entre el campo receptivo en neurociencia y en CNNs?: El concepto es análogo. En neurociencia, se refiere a la región del espacio sensorial que afecta una neurona biológica. En CNNs, es la región de la imagen de entrada (o mapa de características) que afecta una neurona artificial. La inspiración biológica fue clave para el desarrollo del concepto en IA.
¿Cómo se calcula el tamaño del campo receptivo efectivo en una capa profunda de una CNN?: El cálculo es recursivo y depende del tamaño del kernel (k) y el stride (s) de la capa actual y de todas las capas anteriores. Hay fórmulas específicas para calcularlo, sumando el efecto de cada capa a medida que se retrocede hacia la entrada original.
¿Por qué el campo receptivo crece a medida que se profundiza en una CNN?: Cada capa convolucional aplica un kernel sobre una porción de la capa anterior. Una neurona en una capa N recibe información de una región en la capa N-1. Esta región en N-1, a su vez, recibió información de una región más grande en N-2, y así sucesivamente. Este efecto acumulativo, combinado con las operaciones de pooling que reducen la resolución espacial, hace que las neuronas en capas profundas "vean" una porción mucho mayor de la imagen de entrada original.
¿Qué papel juega el pooling en el campo receptivo de una CNN?: Las capas de pooling (como max pooling) aumentan el tamaño del campo receptivo de las neuronas en las capas subsiguientes de manera eficiente. También introducen invarianza a pequeños desplazamientos en la capa anterior, lo cual es útil para reconocer patrones independientemente de su posición exacta.
¿El campo receptivo de una neurona es fijo?: En el contexto biológico, los campos receptivos pueden exhibir cierta plasticidad a lo largo de la vida o en respuesta a la experiencia. En las CNNs, el campo receptivo geométrico de una neurona en una arquitectura fija es constante, pero los pesos dentro de ese campo (aprendidos durante el entrenamiento) determinan qué características específicas dentro de esa región activan la neurona.

Entender el campo receptivo nos proporciona una poderosa herramienta conceptual para analizar cómo tanto los cerebros como las redes neuronales artificiales procesan la información visual, construyendo representaciones cada vez más complejas del mundo a partir de entradas sensoriales simples.

Si quieres conocer otros artículos parecidos a Campo Receptivo: Clave en Visión y CNNs puedes visitar la categoría Neurociencia.

Jesús Porta Etessam

Soy licenciado en Medicina y Cirugía y Doctor en Neurociencias por la Universidad Complutense de Madrid. Me formé como especialista en Neurología realizando la residencia en el Hospital 12 de Octubre bajo la dirección de Alberto Portera y Alfonso Vallejo, donde también ejercí como adjunto durante seis años y fui tutor de residentes. Durante mi formación, realicé una rotación electiva en el Memorial Sloan Kettering Cancer Center.Posteriormente, fui Jefe de Sección en el Hospital Clínico San Carlos de Madrid y actualmente soy jefe de servicio de Neurología en el Hospital Universitario Fundación Jiménez Díaz. Tengo el honor de ser presidente de la Sociedad Española de Neurología, además de haber ocupado la vicepresidencia del Consejo Español del Cerebro y de ser Fellow de la European Academy of Neurology.A lo largo de mi trayectoria, he formado parte de la junta directiva de la Sociedad Española de Neurología como vocal de comunicación, relaciones internacionales, director de cultura y vicepresidente de relaciones institucionales. También dirigí la Fundación del Cerebro.Impulsé la creación del grupo de neurooftalmología de la SEN y he formado parte de las juntas de los grupos de cefalea y neurooftalmología. Además, he sido profesor de Neurología en la Universidad Complutense de Madrid durante más de 16 años.