Modelos Causales: Entendiendo Causa y Efecto

27/12/2020

★★★★★Valoración: 4.5 (2992 votos)

En la búsqueda constante por comprender sistemas complejos, desde la propagación de enfermedades hasta el funcionamiento de la mente humana, los científicos se enfrentan a una pregunta fundamental: ¿qué causa qué? No basta con describir patrones o correlaciones; para intervenir de manera efectiva y mejorar resultados, es imperativo entender las relaciones causales subyacentes. Aquí es donde entran en juego los modelos causales, herramientas formales que ofrecen un marco riguroso para pensar sobre la causalidad y guiar la investigación científica.

What is an example of a causal model? — The causal model (representing knowledge about the system to be studied) must be explicitly linked to the data measured on that system. For example, a study may have measured baseline covariates W, exposure A, and outcome Y on an independent random sample of n individuals from some target population.

La práctica en muchos campos, como la epidemiología, exige plantear preguntas causales. Si bien la importancia del pensamiento causal ha sido reconocida históricamente (por ejemplo, en el enfoque sobre el factor de confusión), los marcos formales para la inferencia causal desarrollados en las últimas décadas tienen el potencial de mejorar drásticamente el rigor de este proceso. Argumentamos que un marco causal formal puede ayudar a diseñar un análisis estadístico que se acerque lo más posible a responder la pregunta causal motivadora, al tiempo que deja claras las suposiciones necesarias para dotar a las estimaciones resultantes de una interpretación causal.

Índice de Contenido

¿Qué es un Modelo Causal?
Modelos Causales en Epidemiología
Aplicaciones en Psicología y Salud Mental
El Proceso Sistemático de Inferencia Causal
Modelos Causales Estructurales y Grafos Causales
Redes Bayesianas vs. Modelos de Ecuaciones Estructurales
Identificabilidad: El Puente entre Causa y Estadística
De la Inferencia Causal a la Estimación Estadística
Preguntas Frecuentes sobre Modelos Causales
Conclusión

¿Qué es un Modelo Causal?

Un modelo causal es una representación formal del conocimiento que tenemos (o creemos tener) sobre las relaciones de causa y efecto dentro de un sistema. A diferencia de los modelos puramente estadísticos que describen asociaciones, un modelo causal busca describir cómo un cambio en una variable afecta a otra. Estos modelos proporcionan un lenguaje riguroso para expresar tanto el conocimiento existente como sus límites.

Existen varios tipos de modelos causales, pero uno de los más unificadores es el Modelo Causal Estructural (SCM, por sus siglas en inglés). Este framework integra los lenguajes de los contrafactuales, las ecuaciones estructurales y los grafos causales. Los SCMs permiten codificar una gran cantidad de incertidumbre sobre el verdadero proceso de generación de datos, como la existencia de una relación causal entre dos variables, la distribución de factores de fondo no medidos, y la forma funcional de las relaciones.

Modelos Causales en Epidemiología

La epidemiología, por su naturaleza, se centra en comprender las causas de las enfermedades y la salud en las poblaciones. Describir simplemente que una exposición y una enfermedad coexisten no es suficiente; necesitamos saber si la exposición *causa* la enfermedad para poder diseñar intervenciones de salud pública efectivas. Los modelos causales formales son herramientas invaluables en este contexto.

Por ejemplo, un grafo causal, como un Grafo Dirigido Acíclico (DAG), puede representar las relaciones hipotéticas entre variables como covariables basales (W), una exposición (A) y un resultado (Y). Las flechas en el grafo indican posibles relaciones causales directas. La ausencia de una flecha (una restricción de exclusión) codifica el conocimiento de que una variable no afecta directamente a otra. La ausencia de una flecha de doble cabeza entre dos variables asume que no comparten causas no medidas (una suposición de independencia). Estos grafos ayudan a visualizar las relaciones y a identificar posibles factores de confusión.

Consideremos un DAG simple donde W influye en A y Y, y A influye en Y. Este grafo sugiere que W es un factor de confusión para la relación entre A e Y, ya que afecta tanto a la exposición como al resultado y precede a la exposición. Un modelo causal basado en este grafo nos indica que, para estimar el efecto causal de A sobre Y, probablemente necesitemos ajustar por W.

What is the causal model in psychology? — Causal modelling is a tool for decision-making based on identifying critical variables and their causal relationships. In the last two decades, great efforts have been made to provide integrated and balanced mental health care, but there is no a clear systematization of causal links among MHSS variables.

Aplicaciones en Psicología y Salud Mental

Los sistemas de salud mental se caracterizan por su inmensa complejidad. Múltiples variables interactúan en diferentes niveles (paciente, organización, comunidad, política) para determinar los resultados. La planificación y gestión efectivas de estos servicios requieren comprender estas interacciones causales. Los modelos causales, como las Redes Bayesianas (BN) y el modelado de Ecuaciones Estructurales (SEM), se están utilizando para abordar esta complejidad.

Una Red Bayesiana es una expresión formal de un modelo causal que utiliza nodos (variables) y conexiones (flechas) para mostrar causas y efectos. Las BN pueden integrarse en sistemas de apoyo a la toma de decisiones (DSS) para explicar los vínculos causales entre variables. Aunque a menudo se basan en modelos teóricos, la estructura de una BN puede probarse utilizando datos, a veces con técnicas como el SEM.

En salud mental, los modelos causales pueden ayudar a identificar variables críticas (inputs y outcomes) y sus relaciones causales. Por ejemplo, ¿el número de personal influye en la calidad de la atención, o es la demanda (número de pacientes) la que determina la dotación de personal? Un modelo causal bien construido puede formalizar estas preguntas y guiar el análisis de datos para encontrar respuestas basadas en evidencia. Aunque su aplicación en la gestión de sistemas de salud mental aún es escasa, el potencial para mejorar la comprensión del comportamiento del sistema, identificar factores de rendimiento y fundamentar políticas basadas en evidencia es considerable.

El Proceso Sistemático de Inferencia Causal

La integración de modelos causales con la estimación estadística sigue un enfoque sistemático que consta de varios pasos clave:

Especificar el conocimiento del sistema: Se utiliza un modelo causal (como un SCM o DAG) para representar el conocimiento existente y sus limitaciones sobre el proceso de generación de datos.
Especificar los datos observados: Se define cómo los datos disponibles (por ejemplo, un muestreo aleatorio de W, A, Y) se relacionan con el modelo causal. El modelo causal puede o no imponer restricciones comprobables sobre la distribución de los datos observados.
Especificar la cantidad causal objetivo: Se traduce la pregunta científica en una cantidad contrafactual específica. Esto implica definir un experimento hipotético ideal (por ejemplo, ¿qué ocurriría si todos recibieran la exposición A=1 vs. A=0?). Un ejemplo común es el Efecto de Tratamiento Promedio, definido como E(Y₁ - Y₀), donde Yₐ es el resultado contrafactual si la exposición se fijara a 'a' para todos.
Evaluar la identificabilidad: Se determina si la cantidad causal objetivo (definida en términos de contrafactuales no observados) puede expresarse como un parámetro de la distribución de los datos observados (un estimando), dadas las suposiciones del modelo causal y los datos disponibles. Los SCMs son herramientas generales para evaluar la identificabilidad y derivar estimandos. Por ejemplo, bajo ciertas suposiciones (como el criterio de "back-door" en un DAG), el efecto causal puede ser identificado y calculado usando una fórmula como la G-computación.
Comprometerse con un modelo estadístico y un estimando: Si la cantidad causal es identificable bajo suposiciones razonables, se define un problema de estimación estadística. Esto implica seleccionar el estimando (la expresión matemática basada en datos observados que, bajo las suposiciones causales, equivale a la cantidad causal) y un modelo estadístico para los datos observados. Es crucial diferenciar entre suposiciones basadas en el conocimiento real y suposiciones basadas en la conveniencia.
Estimar: Una vez definido el problema de estimación estadística, se aplican métodos estadísticos para obtener una estimación del estimando. La elección del estimador debe basarse en sus propiedades estadísticas (sesgo, varianza, eficiencia), no en si es "causal". Hay múltiples estimadores posibles para un mismo estimando (por ejemplo, regresión, ponderación por probabilidad inversa, métodos doblemente robustos).
Interpretar los resultados: Finalmente, se interpretan las estimaciones en el contexto de la pregunta científica original y las suposiciones causales y estadísticas realizadas. Es vital ser transparente sobre las limitaciones y las suposiciones no comprobables.

Modelos Causales Estructurales y Grafos Causales

Los Modelos Causales Estructurales (SCM) y los Grafos Dirigidos Acíclicos (DAG) son herramientas fundamentales en el modelado causal. Un DAG visualiza las relaciones causales postuladas, mientras que un SCM formaliza estas relaciones mediante un conjunto de ecuaciones estructurales.

Cada variable en el sistema se representa como una función determinista de sus padres (variables con flechas que apuntan a ella en el DAG) y de un término de error no medido. El término de error representa todos los factores no medidos que influyen en la variable, independientemente de sus padres explícitos en el modelo.

Por ejemplo, para un sistema con variables W, A, Y, las ecuaciones estructurales podrían ser algo así:

W = fᵤ(Uᵥ)
A = fₐ(W, Uₐ)
Y = fᵧ(W, A, Uᵧ)

Donde Uᵥ, Uₐ, Uᵧ son los términos de error (factores no medidos) para W, A, Y respectivamente. Las suposiciones sobre la independencia de estos términos de error se reflejan en el DAG (por ejemplo, la ausencia de flechas de doble cabeza).

Redes Bayesianas vs. Modelos de Ecuaciones Estructurales

Aunque ambos, las Redes Bayesianas (BN) y el Modelado de Ecuaciones Estructurales (SEM), se utilizan para modelar relaciones entre variables, tienen enfoques y propósitos ligeramente diferentes, aunque a menudo se complementan:

Característica	Redes Bayesianas (BN)	Modelado de Ecuaciones Estructurales (SEM)
Representación	Grafos acíclicos dirigidos (DAG) con probabilidades condicionales.	Conjunto de ecuaciones (lineales o no lineales) y un diagrama de rutas (path diagram).
Enfoque principal	Modelado explícito de relaciones causales y probabilísticas; útil para inferencia bajo incertidumbre y toma de decisiones.	Análisis de relaciones entre variables observadas y latentes; a menudo utilizado para probar modelos teóricos y validar estructuras.
Naturaleza de las relaciones	Explícitamente causales (si se construyen como modelos causales); representan dependencias probabilísticas.	Pueden representar relaciones causales, pero la causalidad debe postularse teóricamente; también representan correlaciones y efectos indirectos.
Manejo de incertidumbre	Excelente para modelar y propagar incertidumbre probabilística.	Se centra más en la estimación de parámetros y la bondad de ajuste del modelo a los datos.
Aplicaciones típicas	Diagnóstico, toma de decisiones bajo incertidumbre, modelado de sistemas complejos, inferencia causal.	Psicometría, validación de constructos, prueba de teorías, modelado de relaciones complejas en ciencias sociales y del comportamiento.

Es importante notar que, aunque el SEM puede estimar los coeficientes de las ecuaciones estructurales, la interpretación de estos como efectos *causales* depende de que el modelo postulado (a menudo representado como un diagrama de rutas, que es un tipo de grafo) sea causalmente correcto.

Identificabilidad: El Puente entre Causa y Estadística

Uno de los pasos más críticos en el proceso de inferencia causal es evaluar la identificabilidad. Una pregunta causal se refiere a una cantidad que involucra resultados contrafactuales (lo que *habría* pasado bajo diferentes condiciones). La identificabilidad se pregunta si esta cantidad contrafactual puede ser calculada utilizando *solo* los datos observados y las suposiciones del modelo causal.

Un modelo causal nos ayuda a entender si nuestro conocimiento de fondo, combinado con los datos disponibles, es suficiente para responder la pregunta causal. Si no es identificable, el modelo puede sugerir qué datos adicionales o qué suposiciones (idealmente basadas en conocimiento real) serían necesarios.

La fórmula de G-computación, mencionada en el texto, es un ejemplo de cómo una cantidad contrafactual (la distribución del resultado si todos hubieran recibido la exposición 'a', P(Yₐ=y)) puede ser identificada bajo ciertas suposiciones y expresada como un estimando basado en datos observados: P(Yₐ=y) = Σ_w P(Y=y | A=a, W=w) P(W=w). Esta fórmula nos dice que, si hemos medido y ajustado correctamente por W (los factores de confusión), podemos estimar el resultado contrafactual promediando los resultados observados dentro de cada nivel de W, ponderados por la frecuencia de esos niveles de W en la población.

De la Inferencia Causal a la Estimación Estadística

Una vez que se ha establecido que una cantidad causal es identificable y se ha derivado el estimando correspondiente (una expresión basada en la distribución de los datos observados), el problema se convierte en puramente estadístico: ¿cómo estimamos este estimando de la manera más precisa y eficiente posible utilizando nuestros datos?

La elección del estimador (el algoritmo o método estadístico para calcular el valor del estimando a partir de los datos) debe basarse en sus propiedades estadísticas, como la consistencia (si converge al valor verdadero del estimando a medida que aumenta el tamaño de la muestra) y la eficiencia (si tiene la menor varianza posible). Métodos como la regresión, la ponderación por probabilidad inversa, el matching o los métodos doblemente robustos son diferentes formas de estimar el mismo estimando bajo ciertas condiciones.

Es fundamental recordar que el modelo causal informa qué *cantidad* debemos estimar para responder a la pregunta causal y qué *suposiciones* son necesarias para que esa cantidad sea identificable a partir de los datos observados. Pero la *forma* en que calculamos esa cantidad a partir de una muestra de datos es un problema de estimación estadística. La calidad de la estimación dependerá de factores como el tamaño de la muestra, la variabilidad de los datos y si los modelos estadísticos utilizados (por ejemplo, para la regresión o la ponderación) están correctamente especificados.

Preguntas Frecuentes sobre Modelos Causales

¿Un modelo causal prueba la causalidad?: No directamente. Un modelo causal *formaliza* nuestras suposiciones sobre la causalidad. Permite derivar las consecuencias lógicas de esas suposiciones y probar si son consistentes con los datos observados. Sin embargo, la confirmación de la causalidad a menudo requiere evidencia de múltiples fuentes y diseños de estudio (como experimentos aleatorios controlados).
¿Cuál es la diferencia entre correlación y causalidad?: La correlación indica que dos variables tienden a variar juntas. La causalidad implica que un cambio en una variable *produce* un cambio en la otra. La correlación no implica causalidad, ya que una asociación observada podría deberse a un factor de confusión, una causa común, o simplemente al azar. Los modelos causales están diseñados para distinguir entre asociación y causalidad, explicitando las suposiciones necesarias para inferir lo segundo.
¿Son los modelos causales solo diagramas?: Los diagramas (como los DAGs) son una forma visual útil de representar un modelo causal, pero el modelo subyacente es más formal. Un Modelo Causal Estructural, por ejemplo, se define por un conjunto de ecuaciones estructurales y suposiciones sobre los términos de error. Las Redes Bayesianas también combinan la estructura gráfica con distribuciones de probabilidad condicional.
¿Pueden los modelos causales manejar la incertidumbre?: Sí. Los SCMs permiten expresar incertidumbre sobre las relaciones causales y las distribuciones de factores no medidos. Las Redes Bayesianas son particularmente adecuadas para modelar y propagar la incertidumbre probabilística a través del sistema.
¿Se aplican los modelos causales solo en epidemiología?: No. Si bien la epidemiología ha sido un campo pionero en la aplicación formal de estos modelos, su uso se extiende a muchas disciplinas que buscan entender relaciones de causa y efecto en sistemas complejos, incluyendo la economía, las ciencias sociales, la informática (inteligencia artificial) y, por supuesto, la comprensión de sistemas biológicos y cognitivos.

Conclusión

Los modelos causales ofrecen un marco poderoso y flexible para abordar preguntas de causa y efecto en sistemas complejos. Al formalizar explícitamente las suposiciones sobre el proceso de generación de datos, permiten a los investigadores diseñar análisis más rigurosos, evaluar la viabilidad de responder preguntas causales con los datos disponibles y diferenciar claramente entre la inferencia causal y la estimación estadística. Si bien su aplicación requiere un pensamiento cuidadoso y a menudo revela las limitaciones de los datos observacionales, estas herramientas son esenciales para avanzar en nuestra comprensión de sistemas complejos y guiar la toma de decisiones basadas en evidencia.

Si quieres conocer otros artículos parecidos a Modelos Causales: Entendiendo Causa y Efecto puedes visitar la categoría Neurociencia.

Jesús Porta Etessam

Soy licenciado en Medicina y Cirugía y Doctor en Neurociencias por la Universidad Complutense de Madrid. Me formé como especialista en Neurología realizando la residencia en el Hospital 12 de Octubre bajo la dirección de Alberto Portera y Alfonso Vallejo, donde también ejercí como adjunto durante seis años y fui tutor de residentes. Durante mi formación, realicé una rotación electiva en el Memorial Sloan Kettering Cancer Center.Posteriormente, fui Jefe de Sección en el Hospital Clínico San Carlos de Madrid y actualmente soy jefe de servicio de Neurología en el Hospital Universitario Fundación Jiménez Díaz. Tengo el honor de ser presidente de la Sociedad Española de Neurología, además de haber ocupado la vicepresidencia del Consejo Español del Cerebro y de ser Fellow de la European Academy of Neurology.A lo largo de mi trayectoria, he formado parte de la junta directiva de la Sociedad Española de Neurología como vocal de comunicación, relaciones internacionales, director de cultura y vicepresidente de relaciones institucionales. También dirigí la Fundación del Cerebro.Impulsé la creación del grupo de neurooftalmología de la SEN y he formado parte de las juntas de los grupos de cefalea y neurooftalmología. Además, he sido profesor de Neurología en la Universidad Complutense de Madrid durante más de 16 años.