Inferencia Bayesiana: Cerebro, Datos y Creencias

06/01/2021

★★★★★Valoración: 4.89 (755 votos)

La inferencia Bayesiana representa un enfoque estadístico cada vez más relevante y popular para la construcción de modelos en problemas del mundo real. En los últimos años, los métodos estadísticos Bayesianos han encontrado una aplicación creciente en campos científicos que van desde la arqueología hasta la informática. En esencia, la inferencia Bayesiana es un método de análisis que fusiona la información recopilada a partir de datos experimentales con el conocimiento que ya se posee antes de realizar el experimento. Este enfoque se distingue fundamentalmente de los métodos estadísticos clásicos (o frequentistas) en su perspectiva sobre la inferencia estadística.

What is the Bayesian inference? — By definition, Bayesian inference is the process of fitting a probability model to a set of data (Gelman et al., 2004). The inference summarizes the result by a probability distribution on the parameters of the model and on unobserved quantities such as predictions for new observations.

Índice de Contenido

¿Qué es la Inferencia Bayesiana?
Bayesiano vs. Clásico (Frequentista)
¿Por qué son Útiles los Métodos Bayesianos?
Inferencia Bayesiana en Neurociencia
Análisis de Datos Neuronales con Estadística Bayesiana
¿El Cerebro se Comporta de Forma Bayesiana?
Códigos Neuronales y Representación de la Incertidumbre
Preguntas Frecuentes sobre Inferencia Bayesiana y Neurociencia

¿Qué es la Inferencia Bayesiana?

En el corazón del enfoque Bayesiano, las incertidumbres se expresan en términos de probabilidades. La idea central es que, al obtener nueva información, esta se combina con cualquier conocimiento previo disponible para formar la base del procedimiento estadístico. Esta combinación de información previa y nueva evidencia es lo que diferencia significativamente a la inferencia Bayesiana del enfoque clásico, que se basa exclusivamente en la muestra aleatoria. Si una distribución de probabilidad depende de un conjunto de parámetros (θ), el enfoque clásico infiere sobre θ basándose únicamente en una muestra de datos (X₁, ..., Xn).

El enfoque clásico se fundamenta en el concepto de distribución muestral. Para interpretar correctamente los procedimientos inferenciales tradicionales, es crucial comprender plenamente la noción de lo que podría suceder si se extrajeran un gran número de muestras aleatorias de la población, incluso si solo se analiza un único conjunto de valores muestrales. Por ejemplo, al construir un intervalo de confianza del 95% para la media de una población normal con varianza conocida, el enfoque clásico interpreta este intervalo como aquel que contendría la media verdadera en al menos el 95% de las veces si se repitieran los muestreos.

El enfoque clásico no utiliza ninguna información previa que podamos tener, ya sea por nuestra familiaridad con el problema o por resultados de estudios anteriores. Sin embargo, científicos e ingenieros a menudo se enfrentan a la situación de tener un único conjunto de datos y necesitan estimar el valor de un parámetro en el momento en que se tomaron los datos. La pregunta fundamental es: ¿cuál es la mejor estimación de un parámetro que se puede hacer a partir de los datos utilizando la información previa disponible? Los enfoques estadísticos que utilizan conocimiento previo, incluso si es subjetivo, además de la evidencia muestral para estimar los parámetros poblacionales se conocen como métodos Bayesianos.

Bayesiano vs. Clásico (Frequentista)

Una diferencia fundamental radica en la interpretación de la probabilidad. El enfoque Bayesiano se basa en la interpretación subjetiva de la probabilidad, que es una forma de expresar nuestra creencia en la validez de un evento aleatorio. Consideremos el ejemplo de estimar la proporción de estudiantes universitarios que trabajan fuera del campus al menos 20 horas a la semana. Si tomamos una muestra y observamos una proporción, digamos 0.6, el enfoque frequentista basaría todas las inferencias (estimación puntual, por intervalo, contraste de hipótesis) en la distribución muestral de esa proporción. Esto requiere conocer las propiedades de esa distribución muestral, incluso si solo tenemos una muestra.

En contraste, en la interpretación subjetiva de la probabilidad, la proporción de estudiantes que trabajan se considera desconocida y aleatoria. Una distribución de probabilidad, llamada prior, representa nuestro conocimiento o creencia sobre el posible valor de esta proporción antes de utilizar los datos recopilados. Por ejemplo, una oficina de empleo universitaria podría tener una opinión previa basada en experiencias pasadas. El enfoque clásico ignora este conocimiento previo, mientras que el enfoque Bayesiano lo combina con los datos observados para actualizar nuestra creencia sobre el valor de esta proporción.

Después de recopilar los datos, nuestra opinión sobre la proporción puede cambiar. Utilizando la regla de Bayes, calculamos la distribución de probabilidad posterior para la proporción, basándonos en nuestra creencia previa y la evidencia de los datos. Todas las inferencias sobre el parámetro se realizan calculando estadísticas apropiadas de esta distribución posterior.

Característica	Inferencia Bayesiana	Inferencia Clásica (Frequentista)
Parámetro de Interés (θ)	Variable aleatoria con distribución de probabilidad (posterior)	Fijo pero desconocido
Uso de Información Previa	Sí, a través de la distribución prior	No (se basa solo en la muestra actual)
Base para la Inferencia	Distribución Posterior (combina prior y verosimilitud)	Distribución Muestral
Interpretación de la Probabilidad	Subjetiva (grado de creencia)	Objetiva (frecuencia a largo plazo)
Conclusiones	Condicionales a los datos observados	Basadas en lo que ocurriría en muestreos repetidos
Probabilidad de Hipótesis	Sí, se puede calcular P(Hipótesis\|Datos)	No directamente (se usa p-valor y significancia)

¿Por qué son Útiles los Métodos Bayesianos?

El enfoque Bayesiano proporciona una forma natural de actualizar la incertidumbre a la luz de la evidencia. Los datos siguen proviniendo de una distribución, pero la inferencia se centra en la distribución de probabilidad del parámetro. Las razones para adoptar enfoques Bayesianos incluyen:

La mayoría de las conclusiones inferenciales Bayesianas se hacen condicionalmente a los datos observados. A diferencia del enfoque tradicional, no es necesario preocuparse por conjuntos de datos distintos al que se observa. No hay necesidad de discutir distribuciones muestrales.
Desde un punto de vista Bayesiano, es legítimo hablar sobre la probabilidad de que un parámetro caiga en un intervalo específico o la probabilidad de que una hipótesis sea verdadera. Esto contrasta con las interpretaciones frecuentes de los intervalos de confianza clásicos, que a menudo se malinterpretan.

El punto de vista Bayesiano ofrece un modelo conveniente para implementar el método científico. La distribución de probabilidad previa puede usarse para expresar creencias iniciales, se recopilan datos de muestra relevantes y la distribución de probabilidad posterior refleja las nuevas creencias actualizadas sobre el parámetro poblacional a la luz de los nuevos datos. Todas las inferencias sobre el parámetro se realizan calculando resúmenes apropiados de la distribución de probabilidad posterior.

Durante mucho tiempo, el uso del enfoque Bayesiano fue limitado debido a desafíos teóricos y computacionales considerables. Sin embargo, los avances en el análisis Bayesiano, combinados con el creciente poder de las computadoras, están haciendo que los métodos Bayesianos sean prácticos y cada vez más populares. Métodos computacionalmente intensivos como los métodos de Cadena de Markov Monte Carlo (MCMC) son a menudo muy útiles en la estimación Bayesiana.

Inferencia Bayesiana en Neurociencia

En neurociencia, el análisis de datos experimentales implica variables sobre las que tenemos incertidumbre. Calcular eficientemente con tales variables a menudo requiere estadística Bayesiana. Dado que es crucial al analizar datos complejos, parece natural que el cerebro pueda "usar" dicha estadística para analizar datos del mundo. De hecho, estudios recientes en las áreas de percepción, acción y cognición sugieren que el comportamiento Bayesiano está muy extendido, en muchas modalidades y especies. Consecuentemente, muchos modelos han sugerido que el cerebro se basa en principios Bayesianos simples.

Aunque el código del cerebro probablemente no sea realmente simple, se cree que los principios Bayesianos facilitarán la construcción de modelos fieles del cerebro. La estadística Bayesiana puede verse como un modelo de cómo entendemos las cosas. Nuestros sensores son ruidosos y ambiguos, ya que varios mundos posibles (o modelos de cómo funciona el cerebro) podrían dar lugar a las mismas lecturas sensoriales. Por lo tanto, tenemos incertidumbre en nuestros datos y no podemos estar seguros de qué modelo o hipótesis deberíamos creer.

Sin embargo, podemos reducir considerablemente la incertidumbre sobre el mundo utilizando el conocimiento adquirido previamente e integrando datos a través de sensores y tiempo. A medida que llegan nuevos datos, actualizamos nuestras hipótesis. La estadística Bayesiana es la forma rigurosa de calcular la probabilidad de una hipótesis dada en presencia de este tipo de incertidumbre. Dentro de la estadística Bayesiana, el conocimiento adquirido previamente se llama prior, mientras que la información sensorial recién adquirida se llama verosimilitud (likelihood).

Un ejemplo simple basado en interfaces cerebro-máquina ilustra su uso. Supongamos que tenemos un mono abriendo y cerrando la mano, mientras registramos de su corteza motora primaria. Queremos decodificar cómo está moviendo la mano, quizás para construir una prótesis. Digamos que el mono quiere abrir la mano el 80% del tiempo y cerrarla el resto (prior p(abrir)=0.8). Supongamos que registramos el número de picos de una neurona relacionada con la apertura de la mano que da 10 ± 3 picos (media ± desviación estándar) cuando la mano está abierta y 13 ± 3 picos cuando la mano está cerrada. ¿Cómo podríamos estimar si la mano debería estar abierta basándonos tanto en los picos como en el conocimiento previo? Podemos usar la regla de Bayes:

p(abrir | picos) = [p(abrir) * p(picos | abrir)] / [p(abrir) * p(picos | abrir) + p(cerrar) * p(picos | cerrar)]

Si registramos 19 picos y usamos distribuciones Gaussianas aproximadas, tendríamos una probabilidad de aproximadamente el 53% de que la mano debería estar cerrada. Esta combinación de prior y verosimilitud es una aplicación típica de la regla de Bayes. Toda la estadística Bayesiana se basa de alguna manera en la regla de Bayes.

Análisis de Datos Neuronales con Estadística Bayesiana

Cuando se trata del análisis de conjuntos de datos cada vez más complejos en neurociencia, la estadística Bayesiana se utiliza de forma ubicua. Esto no debería sorprender, después de todo, la estadística Bayesiana es simplemente el cálculo de variables sobre las cuales tenemos incertidumbre. Un ejemplo ilustrativo: en muchos experimentos, el experimentalista muestra estímulos visuales mientras mide los picos de una neurona. Necesitan conocer el campo receptivo de la neurona, la función de transferencia (aproximadamente lineal) de la entrada a los picos. Sin embargo, la entrada es de alta dimensión. Por ejemplo, un patrón espacial puede describirse con los valores de brillo de 10x10 píxeles.

Estimar los 100 parámetros libres subyacentes requiere una enorme cantidad de ensayos, incluso eligiendo los estímulos de manera óptima. Sin embargo, no todos los campos receptivos potenciales son igualmente probables. De hecho, a partir de experimentos previos, sabemos que los campos receptivos tienden a ser pequeños (dispersos en el espacio), suaves (derivadas espaciales dispersas) y localizados en el espacio de frecuencias (dispersos en frecuencia). Al incorporar estas ideas en un prior Bayesiano, es posible obtener la misma calidad de mapeo del campo receptivo con muchos menos datos.

De alguna manera, una teoría respaldada por experimentos previos puede simplificar radicalmente los experimentos posteriores habilitados por las ideas Bayesianas. Este ejemplo muestra la naturaleza del conocimiento previo que se utiliza típicamente. Se usó la dispersión en algunas dimensiones y se combinó de manera "suave" con los datos. La "teoría", si se le puede llamar así, propuso que los campos receptivos localizados son más probables que los no localizados. No postuló que los campos receptivos deban ser máximamente localizados. Formular teorías de esta manera suave permite combinarlas fácilmente con los datos.

Aplicaciones similares se encuentran en muchas áreas de la neurociencia. En el campo de las interfaces cerebro-máquina, tenemos priors sobre cómo las personas quieren interactuar con las máquinas y necesitamos combinar esto con datos del cerebro. Al analizar datos de alta dimensión, como datos de múltiples neuronas registradas simultáneamente o imágenes, los enfoques Bayesianos suelen simplificar el análisis de datos al permitir el uso de conocimiento previo sobre las relaciones de las variables. Al analizar interacciones entre moléculas, existe la necesidad de utilizar conocimiento previo sobre los datos y combinar datos de diferentes experimentos. Independientemente del subcampo de la neurociencia, cuando el análisis de datos se complica, la estadística Bayesiana tiende a ser útil.

Ser capaz de combinar datos, utilizando experimentos previos para establecer priors para experimentos posteriores, es la esencia misma del método científico. Ser capaz de cuantificar tales relaciones en un mundo caracterizado por la integración progresiva de datos y el uso creciente de bases de datos es crucial para la neurociencia actual y necesario para gran parte de la neurociencia futura.

¿El Cerebro se Comporta de Forma Bayesiana?

Asumir que el cerebro resuelve problemas cerca del óptimo Bayesiano a menudo predice el comportamiento. Si conjuntos de datos progresivamente más complejos obligan a los neurocientíficos a usar estadística Bayesiana para dar sentido a sus datos, no debería sorprender que los animales tengan que seguir un camino similar. Después de todo, el mundo es complejo, la percepción es ruidosa y ambigua, y los datos son escasos. De hecho, se sabe que sin información previa, el aprendizaje es completamente imposible, una idea conocida desde el trabajo de Hume y formalizada recientemente en los llamados teoremas "no free lunch".

Si bien no hay duda de que el cerebro necesita combinar información ruidosa con conocimiento previo relevante, cuán cerca está la forma en que lo hace de la solución Bayesiana óptima es un tema de intenso debate. Antes de pasar a la discusión de aplicaciones concretas, debemos aclarar qué entendemos por comportamiento Bayesiano. La esencia de los modelos Bayesianos de comportamiento es que predicen que el comportamiento está cerca de la mejor solución posible a un problema encontrado por el animal. No es necesario que las verosimilitudes o los priors estén representados explícitamente.

Por ejemplo, la estabilidad química de las sinapsis a lo largo de múltiples escalas de tiempo puede implementar la creencia de que el pasado es similar al presente y que el mundo evoluciona a lo largo de múltiples escalas de tiempo. En cuanto a los modelos de comportamiento, no hacen ninguna afirmación sobre la naturaleza de la implementación de los cálculos estadísticos subyacentes. Los modelos Bayesianos se utilizan con frecuencia para modelar la integración de información. Las señales sensoriales se combinan entre sí o con priors. Se integran a lo largo del tiempo o el espacio.

Investigaciones recientes que utilizan modelos simples para dicha integración han comparado el comportamiento real con las predicciones de modelos de integración óptima. El comportamiento a menudo está cerca del óptimo para la combinación de señales en entornos motores, comportamiento auditivo, visual y sensoriomotor. Los modelos Bayesianos también se han utilizado recientemente para modelar muchos fenómenos cognitivos de alto nivel. Algunos estudios construyen modelos Bayesianos de cómo los sujetos estiman los valores de variables continuas. Otros estudios construyen modelos Bayesianos de cómo los sujetos estiman la estructura del mundo. Una comunidad próspera intenta relacionar el comportamiento real con las predicciones del comportamiento Bayesiano óptimo.

Sin embargo, existe un debate activo sobre el poder explicativo de los modelos Bayesianos. Una crítica central es que los grados de libertad en los modelos permiten un nuevo tipo de sobreajuste (overfitting), básicamente permitiendo al modelador lograr cualquier predicción que desee. La defensa de estos modeladores Bayesianos es que hay muchos menos grados de libertad porque el conocimiento sobre la estructura real del mundo hace que el conjunto de modelos Bayesianos permisibles sea bastante pequeño. Restringir los modelos Bayesianos, por ejemplo, midiendo las propiedades estadísticas del mundo real, parece crucial para fortalecer su poder predictivo.

Códigos Neuronales y Representación de la Incertidumbre

Preguntar cómo el sistema nervioso podría lograr un comportamiento Bayesiano lleva a nuevas ideas sobre los códigos neuronales. Muchas teorías compiten sobre la representación de la incertidumbre y el cálculo con ella, y generalmente se derivan de suposiciones simples. Por ejemplo, en los códigos de población probabilísticos lineales (PPC), la escasez de picos en un modelo de Poisson representa la incertidumbre. En los modelos de muestreo, la incertidumbre se representa en la secuencia de actividades. En otros trabajos, es la tasa de disparo de neuronas especializadas lo que representa la incertidumbre.

Muchos códigos diferentes de incertidumbre pueden unificarse mediante el uso de estadística Bayesiana y la idea de códigos de población. Cada uno de los modelos propuestos para la representación de la incertidumbre es elegante al centrarse en un solo código de incertidumbre fácilmente comunicable. Sin embargo, la incertidumbre es solo una de las muchas piezas de conocimiento sobre el mundo que el cerebro está representando. Y en la mayoría de los casos, cuando se examina cuidadosamente, el cerebro exhibe códigos complicados.

Los estudios existentes que preguntan cómo se representa la incertidumbre apuntan en la dirección de códigos complicados. Es cierto que ha habido muy pocos estudios que pregunten cómo se representa la incertidumbre, por lo que es difícil estar seguro. Aun así, no se conoce ningún conjunto de datos que sugiera que, en todas las áreas cerebrales, exista una representación simple y conservada de la incertidumbre. Cada uno de los modelos propuestos predice algunos datos medidos. Algunas neuronas reducen las tasas de disparo cuando la incertidumbre es mayor, como predicen los códigos de población probabilísticos. Otras neuronas aumentan su tasa de disparo. El hecho de que las actividades durante el sueño se parezcan a las actividades durante la observación de escenas naturales es predicho por los modelos de muestreo.

Además, existe una amplia gama de hallazgos de fMRI sobre el papel de la incertidumbre que no respaldan claramente un modelo en particular. Y en algunos casos donde se sondearon las respuestas neuronales durante una tarea donde la incertidumbre puede controlarse bien, se ha mostrado un conjunto bastante complejo de respuestas neuronales. Parece que la representación general de la incertidumbre es complicada.

Si encontramos algunos datos que no concuerdan con una teoría dada de la representación neuronal de la incertidumbre, ¿deberíamos declararla falsificada y seguir adelante? Una perspectiva alternativa es ver las teorías como priors, lo que nos permite tratar con teorías aproximadamente verdaderas. En lugar de una teoría que postula que no se pierde información (como es el caso de todas las teorías de procesamiento óptimo), deberíamos usar una teoría que afirme que una alta pérdida de información es menos probable que una baja pérdida de información. En lugar de asumir que el código neuronal para la incertidumbre es el mismo en todas las áreas cerebrales (como generalmente se implica), podríamos preferir asumir que es similar en áreas cerebrales relacionadas. Deberíamos trabajar en encontrar formas de hacer que las teorías aproximadamente correctas sean útiles, utilizándolas como parte del proceso de análisis de datos.

Reformular las teorías existentes como priors y combinarlas con otras teorías y con datos debería permitir que estas teorías sean más útiles, incluso si no capturan la cantidad total de varianza. De hecho, tales combinaciones entre el análisis de datos Bayesiano y el modelado en neurociencia computacional prometen un proceso más constructivo para mejorar las teorías y para analizar y optimizar experimentos.

Preguntas Frecuentes sobre Inferencia Bayesiana y Neurociencia

¿Cuál es la diferencia clave entre inferencia Bayesiana y clásica?

La diferencia principal radica en cómo tratan los parámetros desconocidos. El enfoque clásico los considera fijos pero desconocidos y se basa en la distribución muestral de los datos. El enfoque Bayesiano considera los parámetros como variables aleatorias con distribuciones de probabilidad (prior y posterior) y combina el conocimiento previo con la evidencia de los datos.

¿Qué significa "prior" en estadística Bayesiana?

El "prior" (o distribución a priori) representa las creencias o conocimientos sobre un parámetro desconocido antes de observar los datos. Puede basarse en estudios previos, opinión de expertos o incluso suposiciones generales.

¿Qué es la distribución posterior?

La distribución posterior es el resultado central de la inferencia Bayesiana. Se obtiene al combinar la distribución prior con la verosimilitud de los datos observados utilizando la regla de Bayes. Representa las creencias actualizadas sobre el parámetro después de considerar la evidencia de los datos.

¿Por qué se dice que el cerebro podría ser Bayesiano?

Se sugiere que el cerebro podría operar de manera Bayesiana porque enfrenta problemas similares a los que resuelve la inferencia Bayesiana: lidiar con datos sensoriales ruidosos y ambiguos, integrar información de múltiples fuentes y actualizar creencias o modelos del mundo a medida que llega nueva información.

¿Cómo ayuda la inferencia Bayesiana a analizar datos neuronales?

Permite incorporar conocimiento previo (por ejemplo, sobre la estructura esperada de los campos receptivos o las relaciones entre neuronas) para obtener análisis más robustos y precisos, a menudo requiriendo menos datos que los métodos clásicos. También proporciona un marco riguroso para cuantificar la incertidumbre en las estimaciones.

¿Significa que cada neurona realiza cálculos Bayesianos explícitamente?

No necesariamente. Los modelos Bayesianos de comportamiento predicen resultados que estarían cerca de una solución óptima Bayesiana, pero no afirman que el cerebro implemente explícitamente la regla de Bayes o represente priors y verosimilitudes de manera directa. La implementación neuronal podría ser a través de mecanismos complejos que, en conjunto, aproximen un comportamiento Bayesiano.

La inferencia Bayesiana ofrece un marco poderoso y flexible para abordar la incertidumbre y actualizar el conocimiento. Su creciente aplicación en neurociencia, tanto en el análisis de datos como en la modelización de la función cerebral, subraya su potencial para avanzar en nuestra comprensión de cómo el cerebro procesa información y toma decisiones en un mundo incierto.

Si quieres conocer otros artículos parecidos a Inferencia Bayesiana: Cerebro, Datos y Creencias puedes visitar la categoría Neurociencia.

Jesús Porta Etessam

Soy licenciado en Medicina y Cirugía y Doctor en Neurociencias por la Universidad Complutense de Madrid. Me formé como especialista en Neurología realizando la residencia en el Hospital 12 de Octubre bajo la dirección de Alberto Portera y Alfonso Vallejo, donde también ejercí como adjunto durante seis años y fui tutor de residentes. Durante mi formación, realicé una rotación electiva en el Memorial Sloan Kettering Cancer Center.Posteriormente, fui Jefe de Sección en el Hospital Clínico San Carlos de Madrid y actualmente soy jefe de servicio de Neurología en el Hospital Universitario Fundación Jiménez Díaz. Tengo el honor de ser presidente de la Sociedad Española de Neurología, además de haber ocupado la vicepresidencia del Consejo Español del Cerebro y de ser Fellow de la European Academy of Neurology.A lo largo de mi trayectoria, he formado parte de la junta directiva de la Sociedad Española de Neurología como vocal de comunicación, relaciones internacionales, director de cultura y vicepresidente de relaciones institucionales. También dirigí la Fundación del Cerebro.Impulsé la creación del grupo de neurooftalmología de la SEN y he formado parte de las juntas de los grupos de cefalea y neurooftalmología. Además, he sido profesor de Neurología en la Universidad Complutense de Madrid durante más de 16 años.