What is Bayesian model theory?

Teoría Bayesiana en Psicología: Una Guía

Valoración: 4.29 (7592 votos)

La estadística Bayesiana, aunque no es una escuela de pensamiento nueva, ha experimentado un resurgimiento significativo en popularidad dentro de las ciencias sociales, y particularmente en la psicología. A pesar de su creciente prominencia en la literatura psicológica, muchos investigadores aplicados aún no están familiarizados con los métodos Bayesianos y las notables ventajas que ofrecen. Este artículo busca responder a la curiosidad de los investigadores en psicología, presentando el análisis Bayesiano como una herramienta accesible y poderosa para la inferencia probabilística y la toma de decisiones flexible ante la incertidumbre.

What is the Bayesian decision theory in psychology?
Bayesian decision theory is a mathematical framework that models reasoning and decision-making under uncertainty. Around 1990, perceptual psychologists began constructing detailed Bayesian models of perception.

Históricamente, la mayoría de los investigadores en psicología han trabajado bajo el paradigma de la estadística frequentista. Este enfoque, si bien fundamental, a menudo se centra en las probabilidades de los datos bajo una hipótesis nula y puede llevar a interpretaciones dicotómicas de los resultados (significativo vs. no significativo). La estadística Bayesiana ofrece una perspectiva diferente, redefiniendo conceptos fundamentales y proporcionando un marco más intuitivo para cuantificar y actualizar nuestras creencias a medida que obtenemos nueva evidencia (datos). Afortunadamente, el panorama actual de la potencia computacional y el software accesible ha hecho que el análisis Bayesiano sea mucho más adaptable, conveniente y práctico que nunca.

Para comprender la teoría Bayesiana, primero debemos abordar la noción de probabilidad, un concepto que difiere fundamentalmente entre las perspectivas frequentista y Bayesiana.

Índice de Contenido

La Probabilidad Desde Dos Perspectivas

La diferencia más crítica entre los enfoques frequentista y Bayesiano radica en la definición de probabilidad.

Probabilidad Frequentista

Desde la perspectiva frequentista, la probabilidad de un evento se define como la frecuencia a largo plazo con la que ocurriría si repetimos un experimento un número infinito de veces. Si realizamos un experimento (por ejemplo, lanzar una moneda) N veces y contamos cuántas veces un evento específico (por ejemplo, que salga "cara") ocurre, la probabilidad del evento es el límite de esa proporción a medida que N se acerca al infinito.

En la práctica, no podemos repetir experimentos infinitamente. Estimamos la probabilidad verdadera (un parámetro poblacional fijo y objetivo, pero desconocido) a partir de una muestra finita. La inferencia frequentista se centra en la probabilidad de observar los datos obtenidos (o datos más extremos) si un valor específico del parámetro poblacional (a menudo bajo la hipótesis nula) fuera verdadero.

Probabilidad Bayesiana

En contraste, desde una perspectiva Bayesiana, la probabilidad se define como una medida de creencia o credibilidad sobre un evento, hipótesis o parámetro. Representa la fuerza de nuestra creencia en la verdad de una hipótesis o el valor de un parámetro, basándose en la evidencia disponible y el conocimiento previo. La probabilidad Bayesiana es la combinación de nuestras creencias previas con la nueva evidencia proporcionada por los datos.

Por ejemplo, la probabilidad de que una nueva terapia sea efectiva, desde una lente Bayesiana, es nuestro grado de creencia de que el tratamiento es efectivo, dado tanto los datos recopilados como nuestro conocimiento previo sobre terapias similares o el problema en cuestión. Esta probabilidad es inherentemente subjetiva, ya que refleja nuestro estado de conocimiento o creencia, a diferencia de la probabilidad frequentista que se considera objetiva.

Otra diferencia clave es que, mientras que en la estadística frequentista el parámetro poblacional es un valor único y fijo, en la estadística Bayesiana el parámetro se considera una variable aleatoria que puede tomar muchos valores, cada uno con un cierto grado de probabilidad. La inferencia Bayesiana nos proporciona una distribución completa de probabilidades para el parámetro de interés, mostrando qué valores son más o menos creíbles dados los datos y el conocimiento previo.

Comparación de Conceptos Clave: Frequentista vs. Bayesiano
ConceptoPerspectiva FrequentistaPerspectiva Bayesiana
ProbabilidadFrecuencia a largo plazo de un evento en repeticiones infinitas.Grado de creencia o credibilidad sobre un evento, hipótesis o parámetro.
Parámetro PoblacionalValor único, fijo, objetivo y desconocido.Variable aleatoria con una distribución de probabilidad; representa la creencia sobre posibles valores.
InferenciaProbabilidad de los datos (o más extremos) dado un valor de parámetro fijo (ej. bajo H0).Distribución de probabilidad actualizada del parámetro, dados los datos y el conocimiento previo.
Medida de IncertidumbreIntervalo de Confianza (CI): Rango que, en muestreos repetidos, contendría el parámetro verdadero el X% de las veces.Intervalo Creíble: Rango dentro del cual el parámetro tiene un X% de probabilidad de caer, dada la creencia previa y los datos.
HipótesisSe prueba si los datos son "inusuales" bajo una hipótesis nula fija.Se cuantifica la credibilidad de diferentes valores de parámetro o hipótesis.

El Corazón de la Inferencia Bayesiana: El Teorema de Bayes

El proceso por el cual combinamos nuestras creencias previas con la nueva evidencia para actualizar nuestra creencia sobre un parámetro se rige por el Teorema de Bayes. Este teorema es la base matemática de la inferencia Bayesiana y se expresa de la siguiente manera:

Pr(parámetro|datos) = [Pr(parámetro) * Pr(datos|parámetro)] / Pr(datos)

Vamos a desglosar cada componente:

  • Pr(parámetro): Esta es la distribución de probabilidad previa (el prior). Representa nuestra creencia sobre el valor del parámetro *antes* de observar los datos. Podría basarse en estudios anteriores, conocimiento experto o incluso una falta total de información.
  • Pr(datos|parámetro): Esta es la función de verosimilitud (el likelihood). Representa la probabilidad de observar los datos que hemos recopilado, *dado* un valor específico del parámetro. Es la misma función de verosimilitud utilizada en la inferencia frequentista basada en máxima verosimilitud.
  • Pr(datos): Esta es la probabilidad marginal de los datos. Es la probabilidad de observar los datos bajo *cualquier* valor posible del parámetro, promediada sobre la distribución previa del parámetro. Actúa como una constante de normalización para asegurar que la distribución de probabilidad resultante (la posterior) sume 1.
  • Pr(parámetro|datos): Esta es la distribución de probabilidad posterior (el posterior). Es nuestra creencia actualizada sobre el valor del parámetro *después* de haber observado los datos. Es el resultado de combinar nuestra creencia previa con la evidencia de los datos.

En esencia, el Teorema de Bayes nos dice que la creencia posterior sobre un parámetro es proporcional a la creencia previa multiplicada por la verosimilitud de los datos dado ese parámetro. La constante de normalización Pr(datos) a menudo es difícil de calcular, especialmente con modelos complejos y parámetros continuos, ya que implica integrar la verosimilitud sobre todos los posibles valores del parámetro, ponderados por el prior. Sin embargo, para muchos análisis prácticos, podemos centrarnos en la relación de proporcionalidad: Pr(parámetro|datos) ∝ Pr(parámetro) * Pr(datos|parámetro). La distribución posterior es el principal resultado de un análisis Bayesiano y resume todo lo que sabemos sobre el parámetro de interés dados nuestros supuestos iniciales (el prior) y los datos.

La Importancia Crucial de los Priors

La elección de la distribución previa (el prior) es una característica definitoria del análisis Bayesiano y, al mismo tiempo, una fuente de debate y una tarea que requiere una consideración cuidadosa. Los priors reflejan nuestro conocimiento o creencias sobre los parámetros antes de ver los datos y pueden tener una influencia significativa en la distribución posterior resultante.

Existen diferentes tipos de priors que se pueden usar, dependiendo de la cantidad y naturaleza del conocimiento previo disponible:

  • Priors No Informativos (o Planos): Estos priors están diseñados para ejercer la menor influencia posible sobre el posterior. A menudo tienen una densidad de probabilidad uniforme en un rango amplio de valores posibles para el parámetro, lo que refleja ignorancia o la intención de dejar que los datos "hablen por sí mismos". Sin embargo, su uso debe ser cauteloso, ya que incluso los priors "no informativos" pueden, en algunos casos, influir inesperadamente en el posterior o llevar a resultados idénticos a los de un análisis frequentista (como la máxima verosimilitud).
  • Priors Débilmente Informativos (o por Defecto): Estos priors incorporan algo de información general o restricciones plausibles sobre los parámetros sin imponer creencias fuertes. Por ejemplo, podrían especificar que un coeficiente de regresión es probablemente pequeño y centrado alrededor de cero, pero permitiendo un rango razonable de valores. Logran un equilibrio entre incorporar algo de conocimiento previo y permitir que los datos dominen la inferencia. Muchos paquetes de software Bayesiano proporcionan priors débilmente informativos como opción por defecto.
  • Priors Informativos: Estos priors se basan en conocimiento sustancial y específico sobre los parámetros, a menudo derivado de estudios previos robustos, metaanálisis o conocimiento experto bien fundamentado. Los priors informativos pueden restringir el espacio de parámetros creíbles y ser particularmente útiles con tamaños de muestra pequeños, donde los datos por sí solos pueden no ser muy informativos. Su justificación debe ser explícita y transparente.
  • Priors Conjugados: Un prior es conjugado con respecto a una función de verosimilitud si la distribución posterior resultante pertenece a la misma familia distribucional que el prior. Esto simplifica enormemente los cálculos, ya que la distribución posterior tiene una forma analítica conocida. Sin embargo, los priors conjugados no siempre están disponibles o pueden no reflejar adecuadamente el conocimiento previo.

La elección del prior debe ser un paso deliberado y justificado en el análisis Bayesiano. Es fundamental realizar verificaciones predictivas del prior (simular datos basados solo en el prior para ver si son plausibles) y análisis de sensibilidad (repetir el análisis con diferentes priors) para entender cómo las elecciones previas influyen en los resultados posteriores y asegurar la robustez de las conclusiones.

Aproximando el Posterior: Métodos MCMC

Como mencionamos, calcular la constante de normalización en el Teorema de Bayes (Pr(datos)) puede ser un desafío matemático, especialmente para modelos complejos con muchos parámetros donde implicaría integrales de alta dimensión. Para superar esta dificultad, la estadística Bayesiana moderna a menudo recurre a métodos de simulación para *aproximar* la distribución posterior.

Uno de los conjuntos de métodos más populares para esto es la Cadena de Markov Monte Carlo (MCMC). MCMC no calcula la distribución posterior analíticamente, sino que dibuja una gran cantidad de muestras (iteraciones) de la distribución posterior. Con suficientes muestras, podemos obtener una representación precisa de la forma, el centro, la variabilidad y otras características de la distribución posterior.

La idea principal detrás de MCMC es construir una "cadena" de muestras donde cada muestra subsiguiente depende de la anterior (de ahí el término "Cadena de Markov"). El algoritmo está diseñado para que, después de un período inicial, las muestras converjan a la distribución posterior objetivo. En la práctica, se suelen correr múltiples cadenas en paralelo para verificar la convergencia y la estabilidad de la aproximación.

Dos prácticas comunes en la estimación MCMC son el "warm-up" y el "thinning":

  • Warm-up (o Burn-in): Son las primeras muestras de cada cadena que se descartan. Durante esta fase inicial, el algoritmo "se calienta" y explora el espacio de parámetros hasta que converge a la región de alta densidad de probabilidad del posterior. Descartar estas muestras asegura que las muestras utilizadas para la inferencia provienen de la distribución estacionaria (el posterior objetivo).
  • Thinning (o Adelgazamiento): Consiste en seleccionar solo una de cada N muestras (por ejemplo, cada 5ª o 10ª muestra) de cada cadena y descartar las intermedias. Esto se hace para reducir la autocorrelación entre muestras consecutivas, lo que puede mejorar la eficiencia de la exploración del espacio de parámetros y producir un conjunto de muestras más "independientes" (aunque aún formen una cadena) que representan mejor la distribución posterior.

Si bien MCMC es un tema complejo, comprender que es un método de simulación para aproximar la distribución posterior cuando no se puede calcular analíticamente es fundamental para trabajar con análisis Bayesianos modernos.

What is Bayesian theory in psychology?
Bayes's Theorem Earlier, we mentioned two important principles: (1) Bayesian probability is the marriage of prior beliefs with new evidence (i.e., data), and (2) the parameter value can change or update as new evidence becomes available.

Un Ejemplo Aplicado: Regresión Lineal

Para ilustrar los conceptos, consideremos un ejemplo común en psicología: predecir el conocimiento político a partir de la edad y la educación utilizando un modelo de regresión lineal. La estructura del modelo lineal es la misma tanto en el enfoque frequentista como en el Bayesiano:

Conocimiento Político = b0 + b1 * Edad + b2 * Educación + error

Donde b0 es el intercepto, b1 y b2 son los coeficientes de regresión para Edad y Educación, respectivamente, y el error representa la variabilidad no explicada.

Enfoque Frequentista (OLS)

Usando Mínimos Cuadrados Ordinarios (OLS) en el enfoque frequentista, obtenemos estimaciones puntuales para los coeficientes (b0, b1, b2), sus errores estándar, valores t, p-valores e intervalos de confianza (CIs). Por ejemplo, podríamos encontrar que la Edad tiene un coeficiente estimado de 0.04 (p < .05) y la Educación de 0.99 (p < .001). Los CIs (ej. [0.01, 0.07] para Edad) nos dan un rango que, en muestreos repetidos, contendría el verdadero parámetro poblacional el 95% de las veces. La interpretación se centra en si los coeficientes son "estadísticamente significativos", es decir, si el valor observado (o uno más extremo) es improbable bajo la hipótesis nula de que el coeficiente poblacional es cero.

Enfoque Bayesiano

Para el análisis Bayesiano del mismo modelo, el primer paso crucial es especificar priors para cada parámetro (b0, b1, b2 y la desviación estándar del error). Basándonos en conocimiento previo (por ejemplo, estudios metaanalíticos), podríamos usar priors informativos para Edad y Educación, como b_edad ~ Normal(0.07, 0.1) y b_educacion ~ Normal(1.05, 0.3). Para el intercepto y la desviación estándar del error, donde quizás tengamos menos información específica, podríamos usar priors débilmente informativos (a menudo proporcionados por defecto por el software).

Una vez especificados los priors, el software (como brms en R, que interactúa con Stan) utiliza métodos MCMC para aproximar la distribución posterior de cada parámetro. El resultado no es un único valor estimado, sino una distribución completa.

Interpretando los Resultados Bayesianos

La salida de un análisis Bayesiano difiere de la de un análisis frequentista:

  • Estimados de Parámetros: En lugar de una única estimación puntual, obtenemos un resumen de la distribución posterior de cada parámetro. Comúnmente se reporta la media o mediana de la distribución posterior como la estimación más creíble del parámetro. Por ejemplo, la media posterior para el coeficiente de Educación podría ser 1.00.
  • Medida de Incertidumbre: Intervalos Creíbles: La incertidumbre sobre la estimación del parámetro se expresa a través de Intervalos Creíbles (CIs). A diferencia de los CIs frequentistas, un Intervalo Creíble del 95% (por ejemplo, [0.82, 1.19] para Educación) se interpreta de manera más intuitiva: hay un 95% de probabilidad de que el verdadero valor del parámetro poblacional se encuentre dentro de este rango, dada nuestra creencia previa y los datos observados. Los tipos comunes de intervalos creíbles son el Intervalo de Mayor Densidad (HDI - Highest Density Interval) y el Intervalo de Colas Iguales (ETI - Equal-Tailed Interval). El HDI es el intervalo más estrecho que contiene el porcentaje de probabilidad especificado, mientras que el ETI tiene la misma probabilidad en cada cola (2.5% en cada lado para un CI del 95%).
  • Diagnósticos MCMC: Es crucial verificar si el proceso MCMC ha convergido correctamente y ha explorado eficientemente la distribución posterior. Estadísticas como Rhat (idealmente cercano a 1.00) y el Tamaño Efectivo de Muestra (ESS - Effective Sample Size, idealmente alto) son indicadores importantes de la calidad de la aproximación. La visualización de las cadenas MCMC también es una práctica recomendada.

La interpretación Bayesiana se centra en la distribución posterior: qué valores del parámetro son más o menos creíbles, cuál es la probabilidad de que el parámetro caiga dentro de un rango específico (el intervalo creíble) y cuál es la forma general de la distribución (simetría, dispersión).

Más Allá de los p-valores

Una de las diferencias más notables es la ausencia de p-valores y pruebas de significación en el sentido frequentista tradicional. La inferencia Bayesiana no se basa en rechazar o no rechazar una hipótesis nula fija (como que un coeficiente es exactamente cero). En cambio, la pregunta es: ¿cuánta credibilidad asignamos a diferentes valores del parámetro, incluido cero?

Podemos hacer preguntas directas sobre la probabilidad de que un parámetro sea mayor o menor que un valor específico. Por ejemplo, podemos calcular la probabilidad de que el coeficiente de Educación sea mayor que 0.8 simplemente calculando la proporción de la distribución posterior que se encuentra por encima de 0.8. Esta probabilidad (que podría ser, por ejemplo, 98%) es una declaración directa sobre nuestra creencia en el valor del parámetro, algo que un p-valor no proporciona.

Otra métrica utilizada es el Factor de Bayes o la Razón de Evidencia, que compara la probabilidad de los datos bajo una hipótesis frente a otra (por ejemplo, un parámetro es cero vs. no es cero). Un Factor de Bayes mayor que 1 indica mayor evidencia a favor de la primera hipótesis, mientras que un valor menor que 1 favorece la segunda.

Reporte de Análisis Bayesianos

Al reportar análisis Bayesianos, es esencial ser transparente y detallado. Las recomendaciones de buenas prácticas incluyen:

  • Describir y justificar claramente la elección de los priors.
  • Reportar las características de las distribuciones posteriores (media o mediana, desviación estándar).
  • Presentar los intervalos creíbles (tipo y rango).
  • Informar sobre los detalles computacionales (software, número de cadenas, iteraciones, warm-up, thinning).
  • Reportar diagnósticos MCMC (Rhat, ESS) y, si es posible, incluir visualizaciones.
  • Discutir los resultados en términos de credibilidad y probabilidad, no de significación estadística tradicional.
  • Realizar y reportar verificaciones predictivas del prior y análisis de sensibilidad para demostrar la robustez de las conclusiones.

Preguntas Frecuentes

¿Es la estadística Bayesiana mejor que la frequentista?

No necesariamente "mejor", sino diferente y complementaria. Ofrece un marco más intuitivo para la interpretación de la incertidumbre y la incorporación de conocimiento previo. Ambos enfoques tienen sus fortalezas y debilidades, y la elección depende de la pregunta de investigación, el conocimiento previo disponible y la filosofía preferida para la inferencia.

¿Qué significa exactamente un Intervalo Creíble del 95%?

Significa que, dada la distribución posterior (que combina tu creencia previa y los datos), hay un 95% de probabilidad de que el verdadero valor del parámetro poblacional se encuentre dentro de ese rango específico. Esta interpretación es mucho más directa que la de un intervalo de confianza frequentista.

¿Por qué no hay p-valores en el análisis Bayesiano?

El análisis Bayesiano no se centra en la probabilidad de los datos bajo una hipótesis nula fija, sino en la distribución de probabilidad del parámetro dados los datos y el prior. En lugar de un p-valor, puedes calcular directamente la probabilidad de que el parámetro sea mayor o menor que un valor de interés, o usar métricas como el Factor de Bayes para comparar la evidencia a favor de diferentes hipótesis.

¿Cómo elijo mis priors?

La elección de priors debe basarse en el conocimiento previo disponible. Si tienes información sólida de estudios anteriores, usa priors informativos. Si tienes una idea general pero no específica, usa priors débilmente informativos. Si no tienes casi ningún conocimiento previo y quieres que los datos dominen, considera priors no informativos (con precaución). Siempre justifica tu elección y realiza análisis de sensibilidad.

¿Es la estadística Bayesiana más difícil?

Conceptualmente, puede requerir un cambio de mentalidad. Computacionalmente, a menudo implica métodos de simulación (como MCMC) que requieren software especializado y pueden ser más lentos que los métodos frequentistas tradicionales para modelos muy complejos. Sin embargo, con el software moderno, la implementación se ha vuelto mucho más accesible.

Conclusiones

Este artículo ha proporcionado una introducción a los conceptos fundamentales de la estadística Bayesiana en psicología, contrastándola con el enfoque frequentista y destacando sus características clave como la definición de probabilidad como creencia, el papel central del Teorema de Bayes, la importancia de los priors, el uso de métodos MCMC para aproximar el posterior y la interpretación de los intervalos creíbles. Hemos visto cómo el análisis Bayesiano ofrece una forma más rica y matizada de interpretar los resultados, centrándose en la distribución de probabilidad de los parámetros y la cuantificación directa de la incertidumbre, en lugar de la dicotomía de la significación estadística.

Abrazar los métodos Bayesianos amplía la caja de herramientas analítica de los investigadores, permitiendo abordar preguntas de investigación con mayor flexibilidad y una interpretación más intuitiva de los hallazros. Si bien la selección de priors y la verificación de la convergencia de MCMC requieren cuidado, los beneficios en términos de profundidad inferencial hacen que la inversión valga la pena. La estadística Bayesiana no reemplaza la estadística frequentista, sino que ofrece una perspectiva complementaria y poderosa para entender los datos en psicología.

Si quieres conocer otros artículos parecidos a Teoría Bayesiana en Psicología: Una Guía puedes visitar la categoría Neurociencia.

Foto del avatar

Jesús Porta Etessam

Soy licenciado en Medicina y Cirugía y Doctor en Neurociencias por la Universidad Complutense de Madrid. Me formé como especialista en Neurología realizando la residencia en el Hospital 12 de Octubre bajo la dirección de Alberto Portera y Alfonso Vallejo, donde también ejercí como adjunto durante seis años y fui tutor de residentes. Durante mi formación, realicé una rotación electiva en el Memorial Sloan Kettering Cancer Center.Posteriormente, fui Jefe de Sección en el Hospital Clínico San Carlos de Madrid y actualmente soy jefe de servicio de Neurología en el Hospital Universitario Fundación Jiménez Díaz. Tengo el honor de ser presidente de la Sociedad Española de Neurología, además de haber ocupado la vicepresidencia del Consejo Español del Cerebro y de ser Fellow de la European Academy of Neurology.A lo largo de mi trayectoria, he formado parte de la junta directiva de la Sociedad Española de Neurología como vocal de comunicación, relaciones internacionales, director de cultura y vicepresidente de relaciones institucionales. También dirigí la Fundación del Cerebro.Impulsé la creación del grupo de neurooftalmología de la SEN y he formado parte de las juntas de los grupos de cefalea y neurooftalmología. Además, he sido profesor de Neurología en la Universidad Complutense de Madrid durante más de 16 años.

Subir