What is a generalized linear model in neuroscience?

Modelos Lineales Generalizados en Neurociencia

Valoración: 4.79 (9640 votos)

En el fascinante campo de la neurociencia, comprender cómo las neuronas codifican información y cómo interactúan las diferentes áreas cerebrales es un desafío constante. Para abordar esta complejidad, los investigadores recurren a herramientas matemáticas y estadísticas sofisticadas que les permiten modelar y analizar los datos neuronales, que a menudo presentan características no normales, como conteos de picos o señales binarias. Una de estas herramientas fundamentales es el Modelo Lineal Generalizado, o GLM por sus siglas en inglés.

A primera vista, el término "Modelo Lineal Generalizado" puede sonar intimidante, pero su concepto central es una extensión lógica de la regresión lineal simple que quizás ya conozcas. Mientras que la regresión lineal estándar predice directamente un resultado continuo (como la altura) como una combinación lineal de predictores, los GLMs ofrecen una flexibilidad mucho mayor. Permiten modelar variables de respuesta que siguen una variedad de distribuciones de probabilidad (no solo la normal, que es la base de la regresión lineal clásica) y utilizan una "función de enlace" para conectar la combinación lineal de predictores con la media de la variable de respuesta.

What is GLM in FMRI?
We now come to the General Linear Model, or GLM. With a GLM, we can use one or more regressors, or independent variables, to fit a model to some outcome measure, or dependent variable.

¿Qué es un Modelo Lineal Generalizado (GLM)?

Formalmente, un Modelo Lineal Generalizado es una estructura estadística que unifica varios modelos estadísticos comunes, incluyendo la regresión lineal ordinaria, la regresión logística y la regresión de Poisson. Fue formulado por John Nelder y Robert Wedderburn como una forma de manejar una amplia gama de tipos de datos de respuesta.

El GLM se compone de tres elementos principales:

  1. Una distribución de probabilidad específica para modelar la variable de respuesta Y. Esta distribución generalmente pertenece a la familia exponencial, que incluye distribuciones muy comunes como la normal, la binomial, la de Poisson, la gamma, entre otras.
  2. Un predictor lineal, denotado como η (eta). Este predictor es una combinación lineal de las variables independientes (predictores) X, ponderadas por parámetros desconocidos β. Se expresa como η = Xβ.
  3. Una función de enlace, denotada como g. Esta función establece la relación entre la media (μ) de la distribución de la variable de respuesta y el predictor lineal (η). La relación es μ = g⁻¹(η), donde g⁻¹ es la función inversa de la función de enlace.

La intuición detrás de la función de enlace es crucial. En la regresión lineal ordinaria, asumimos que la media de la respuesta varía linealmente con los predictores. Esto funciona bien para datos continuos que pueden variar indefinidamente. Sin embargo, para datos como conteos (que no pueden ser negativos) o probabilidades (que están entre 0 y 1), una relación lineal directa puede llevar a predicciones absurdas (como conteos negativos o probabilidades mayores que 1). La función de enlace transforma la media de la respuesta para que esta versión transformada sí varíe linealmente con los predictores. Por ejemplo, para conteos, se puede usar una función de enlace logarítmica (log(μ) = η), lo que implica que la media varía exponencialmente con η, garantizando que la predicción de la media siempre sea positiva. Para probabilidades, se puede usar una función de enlace logit (logit(μ) = log(μ/(1-μ)) = η), que mapea el rango [0,1] a toda la línea real, permitiendo una relación lineal con η.

La varianza en un GLM no es necesariamente constante como en la regresión lineal ordinaria. Típicamente, la varianza es una función de la media: Var(Y | X) = V(g⁻¹(Xβ)). Esta relación entre media y varianza es una propiedad de la distribución de probabilidad elegida.

DistribuciónUso TípicoFunción de Enlace CanónicaRelación Media (μ) y Predictor Lineal (η)
NormalDatos continuosIdentidad (g(μ) = μ)μ = η
PoissonConteo de eventosLogarítmica (g(μ) = ln(μ))μ = exp(η)
Bernoulli/BinomialDatos binarios/proporcionesLogit (g(μ) = ln(μ/(1-μ)))μ = exp(η) / (1 + exp(η))
GammaDatos positivos sesgadosLogarítmica o Inversaμ = exp(η) o μ = -1/η

GLMs en Neurociencia: Modelando la Actividad Neuronal

En neurociencia, los GLMs se utilizan ampliamente para modelar la actividad de las poblaciones neuronales, particularmente en el contexto de procesos de puntos estocásticos, como la secuencia de picos de potencial de acción de una neurona. Aquí, el GLM actúa como un modelo generativo, describiendo la probabilidad de que una neurona produzca un pico en un momento dado, condicionado por diversos factores.

Para procesos de Poisson no homogéneos (un modelo común para los picos neuronales, donde la probabilidad de un pico en un instante pequeño depende de la historia reciente y de las entradas), la salida de una neurona individual (su tasa de disparo instantánea) se modela utilizando una función de intensidad condicional, λ(t | F(t)). F(t) representa todos los factores que influyen en la neurona en el tiempo t. La ecuación típica para la intensidad condicional λi de la neurona i es:

λi(t | Fi(t)) = exp(βi + ki ⋅ ξh + ∑j∈πi αij ⋅ Sjh)

Aquí, Fi(t) es una suma lineal de:

  • βi: La tasa de disparo de fondo de la neurona i.
  • ki ⋅ ξh: La influencia de un covariable extrínseco ξh (como un estímulo sensorial o un comando motor) que la neurona codifica de forma independiente. ki modela el campo receptivo de la neurona.
  • ∑j∈πi αij ⋅ Sjh: La influencia de la historia de disparo Sjh de las neuronas presinápticas j que forman el conjunto πi (incluyendo a la propia neurona i para modelar la auto-inhibición o el periodo refractario). αij modela el acoplamiento sináptico de la neurona i con la neurona j.

La función exponencial (exp) actúa como la función de enlace inversa canónica para la distribución de Poisson, asegurando que la tasa de disparo predicha (λi) sea siempre positiva.

What is a generalized linear model in neuroscience?
A Generalized Linear Model in neuroscience refers to a model consisting of a linear filter that describes how a neuron integrates stimuli, a nonlinearity function that transforms filter output, and exponential-family noise to capture stochasticity in the neuron's response.

Aunque los GLMs en este contexto se usan a menudo como modelos generativos para simular o describir la actividad neuronal, su ajuste a datos observados implica la estimación de los parámetros (βi, ki, αij). La estimación de los parámetros de acoplamiento αij es particularmente valiosa, ya que proporciona una medida de la conectividad funcional entre las neuronas. Técnicas como la estimación por máxima verosimilitud (MLE) se utilizan comúnmente para calcular estos parámetros. Esto permite inferir cómo la actividad de una neurona influye en la probabilidad de disparo de otra, basándose puramente en los patrones de actividad observados.

Los GLMs han demostrado ser efectivos para modelar datos neuronales in vivo e in vitro. Se han aplicado con éxito a datos del córtex motor primario durante movimientos dirigidos (donde ξh podrían ser parámetros del movimiento), a la actividad de células de lugar en el hipocampo de ratas (donde ξh podría ser la posición espacial), y a poblaciones de células ganglionares de la retina (RGCs) in vitro, una estructura con conectividad anatómica bien caracterizada.

GLMs en Neurociencia: Analizando Datos de fMRI

Otro campo importante en neurociencia donde los GLMs son la herramienta estándar es el análisis de datos de resonancia magnética funcional (fMRI). Los datos de fMRI miden indirectamente la actividad neuronal a través de la señal BOLD (Blood-Oxygen-Level Dependent), que refleja cambios en el flujo sanguíneo y la oxigenación en respuesta a la actividad neuronal.

En el análisis de fMRI, el GLM se utiliza para modelar la señal BOLD observada en cada vóxel (unidad volumétrica de la imagen cerebral) como una combinación lineal de diferentes predictores o "regresores". Estos regresores representan los eventos experimentales (por ejemplo, la presentación de un estímulo, la ejecución de una tarea) y posibles factores de confusión (como el movimiento de la cabeza del sujeto).

La ecuación básica del GLM en fMRI es similar a la regresión lineal multivariada:

Y = Xβ + ε

Donde:

  • Y es un vector de la señal BOLD observada a lo largo del tiempo en un vóxel particular (la variable dependiente).
  • X es la "matriz de diseño", que contiene los valores de los diferentes regresores a lo largo del tiempo (las variables independientes).
  • β es un vector de "pesos beta" o coeficientes, que representan la contribución o la fuerza de la relación entre cada regresor y la señal BOLD. Estos son los parámetros que se estiman.
  • ε es un vector de residuales, que representa la parte de la señal BOLD que no es explicada por el modelo.

El objetivo principal en fMRI es estimar los pesos beta (β). Un peso beta grande y estadísticamente significativo para un regresor experimental específico (por ejemplo, la presentación de caras) sugiere que ese regrésor explica una parte significativa de la variación en la señal BOLD en ese vóxel, indicando que esa área cerebral está involucrada en el procesamiento de caras. Aunque los datos de fMRI no son estrictamente normales o independientes en el tiempo (violando algunas asunciones básicas de la regresión lineal simple), el marco del GLM se adapta y se aplica extensamente, a menudo con ajustes para tener en cuenta la autocorrelación temporal de la señal BOLD. La aplicación del GLM en fMRI asume que la señal BOLD en un vóxel es una superposición lineal de las respuestas a los diferentes eventos representados en la matriz de diseño.

Asunciones y Limitaciones de los GLMs en Neurociencia

A pesar de su amplia utilidad, los GLMs no están exentos de asunciones y limitaciones que son particularmente relevantes en el contexto de la neurociencia:

  • Asunción de Linealidad: Una asunción crítica es que la dependencia de la tasa de disparo neuronal (en modelos de picos) o de la señal BOLD (en fMRI) en los covariables es implícitamente lineal, posiblemente después de aplicar la función de enlace (como la exponencial para los picos). Sin embargo, muchas áreas corticales exhiben mecanismos no lineales y patrones de disparo complejos y no Poissonianos. Por ejemplo, las respuestas neuronales en áreas prefrontales pueden ser casi binarias, lo que no se ajusta bien a un modelo de tasa continua con dependencia lineal en los predictores. Funciones cerebrales complejas como la atención o la percepción del movimiento también se asocian con patrones de disparo heterogéneos y no lineales.
  • Covariables Conocidos o Medidos: El GLM asume que las covariables (ξh) que influyen en la actividad neuronal son conocidos o pueden medirse explícitamente (como estímulos controlados en un experimento o parámetros de movimiento). Sin embargo, en muchas áreas cerebrales, la entrada intrínseca que impulsa la actividad de una población neuronal observada puede no medirse directamente. Esto hace que la forma funcional exacta de cómo se codifica la información (la relación matemática entre los covariables externos y la salida neuronal) sea un tema de debate y dificulte la aplicación directa del GLM.
  • Costo Computacional y Sobreajuste: Ajustar GLMs, especialmente a grandes conjuntos de datos neuronales con muchos parámetros a estimar (como en modelos de conectividad con muchas neuronas), puede ser computacionalmente intenso. Además, un gran número de parámetros puede llevar al sobreajuste de los datos, donde el modelo se ajusta demasiado bien al ruido específico de los datos de entrenamiento y no generaliza bien a nuevos datos.

Fortalezas y Ventajas

A pesar de estas limitaciones, los GLMs son herramientas poderosas debido a:

  • Flexibilidad: Pueden modelar una amplia gama de tipos de datos neuronales (conteos de picos, datos binarios, señales continuas como BOLD) utilizando la distribución de probabilidad y la función de enlace apropiadas.
  • Manejo de Datos No Normales: Son específicamente diseñados para datos cuya distribución no es normal, lo cual es común en neurociencia.
  • Interpretabilidad: Los parámetros estimados (como los pesos beta en fMRI o los acoplamientos sinápticos αij en modelos de picos) a menudo tienen interpretaciones biológicas o experimentales claras.
  • Inferencia de Conectividad: En modelos de picos, permiten inferir la conectividad funcional entre neuronas a partir de los patrones de actividad observados.

Consideraciones Computacionales y de Ajuste

El ajuste de los parámetros de un GLM generalmente se realiza utilizando métodos de estimación por máxima verosimilitud (MLE). Esto a menudo implica algoritmos iterativos como el de mínimos cuadrados reponderados iterativamente o métodos basados en el gradiente como el método de Newton o el de puntuación de Fisher. Cuando se utiliza la función de enlace canónica, el algoritmo de puntuación de Fisher es equivalente al de mínimos cuadrados reponderados iterativamente.

What does a GLM test for?
Generalized linear models (GLM) are conventionally taught as the primary method for analysis of count data, key components of their specification being a statement of how the mean response relates to a set of predictors and how the variance is assumed to vary as the mean varies (McCullagh & Nelder 1989; Wood 2006).

Para abordar el problema del sobreajuste y la intensidad computacional, se han desarrollado varias estrategias:

  • Regularización Bayesiana: En lugar de maximizar la verosimilitud, se maximiza la densidad posterior, incorporando creencias previas sobre los parámetros (por ejemplo, que son probablemente pequeños o que la conectividad es dispersa).
  • Asumir Conectividad Dispersa: Si se sabe o se asume que la conectividad entre neuronas es dispersa (es decir, la mayoría de las neuronas no están directamente conectadas funcionalmente), se pueden establecer muchos parámetros αij a cero o penalizar su no ser cero, reduciendo el número efectivo de parámetros.
  • Asumir una Forma Funcional Específica: Asumir una forma funcional específica para el acoplamiento entre neuronas o la forma del campo receptivo puede reducir el número de parámetros a estimar.

Inferencia y Validez Estadística

Un aspecto crucial al utilizar GLMs es la inferencia estadística, es decir, determinar si los efectos observados (por ejemplo, la contribución de un regrésor en fMRI o un acoplamiento sináptico) son estadísticamente significativos y no se deben simplemente al azar. Los tests estadísticos estándar para GLMs, basados en aproximaciones asintóticas (válidas para muestras grandes), pueden tener problemas de control del error de Tipo I (falsos positivos) en muestras pequeñas. Esto significa que la tasa de rechazo de la hipótesis nula cuando es cierta puede ser mayor que el nivel de significancia deseado (por ejemplo, 5%).

Este problema puede abordarse utilizando procedimientos de inferencia más robustos, como los tests basados en remuestreo (resampling). Métodos como los tests de permutación, el bootstrap paramétrico o el remuestreo de residuales pueden proporcionar un control más preciso del error de Tipo I, incluso en muestras pequeñas. Estos métodos implican generar múltiples conjuntos de datos "falsos" bajo la hipótesis nula y calcular la estadística de prueba para cada uno para construir una distribución de referencia empírica. Si la estadística de prueba observada en los datos reales es inusual en comparación con esta distribución, se rechaza la hipótesis nula.

Además del control del error de Tipo I, la elección del modelo también afecta la potencia estadística (la capacidad de detectar un efecto real cuando existe). Los GLMs que se ajustan mejor a las propiedades estadísticas de los datos (como la relación media-varianza en datos de conteo) tienden a tener mayor potencia que los modelos que no lo hacen (como la regresión lineal ordinaria aplicada a datos de conteo transformados), especialmente en diseños experimentales desequilibrados o cuando los conteos son pequeños.

Extensiones del GLM

Para abordar complejidades adicionales en los datos neurocientíficos, se han desarrollado extensiones del GLM:

  • Modelos Lineales Generalizados Mixtos (GLMMs): Incorporan efectos aleatorios en el predictor lineal, permitiendo modelar la correlación entre observaciones que provienen de la misma unidad experimental (por ejemplo, múltiples ensayos del mismo sujeto o actividad de neuronas dentro de la misma red). Son útiles cuando el interés se centra en efectos "sujeto-específicos".
  • Ecuaciones de Estimación Generalizadas (GEEs): También manejan datos correlacionados o agrupados, pero se centran en estimar el efecto promedio sobre la población ("efectos promediados por la población") sin especificar completamente la distribución de probabilidad de los efectos aleatorios.
  • Modelos Aditivos Generalizados (GAMs): Permiten que el predictor lineal sea una suma de funciones de suavizado no paramétricas de las covariables, en lugar de estar restringido a una combinación lineal simple. Esto es útil cuando la relación entre los predictores y la respuesta no se espera que sea estrictamente lineal.

GLM vs. Modelo Lineal General (LM): Una Distinción Crucial

Es importante no confundir el Modelo Lineal Generalizado (GLM) con el Modelo Lineal General (LM), también conocido como regresión lineal multivariada. El LM puede considerarse un caso especial del GLM. Específicamente, un LM es un GLM donde la distribución de la variable de respuesta es la distribución Normal y la función de enlace es la función Identidad (g(μ) = μ). Los LMs son más simples y tienen una historia más larga, con resultados exactos para muchas inferencias. Sin embargo, su aplicabilidad se limita a datos continuos con varianza constante y distribución aproximadamente normal. Los GLMs generalizan esto para manejar una variedad mucho más amplia de tipos de datos y relaciones media-varianza, lo cual es esencial para muchos tipos de datos neuronales.

Preguntas Frecuentes (FAQ)

¿Es un GLM lo mismo que un Modelo Lineal General (LM)?
No, un LM es un caso especial de GLM donde la variable de respuesta es Normal y la función de enlace es la Identidad. Los GLMs son más flexibles y manejan una gama más amplia de distribuciones y relaciones media-varianza.

What does the GLM stand for?
In statistics, a generalized linear model (GLM) is a flexible generalization of ordinary linear regression.

¿Qué tipo de datos neuronales puede manejar un GLM?
Los GLMs son adecuados para datos que siguen distribuciones de la familia exponencial, como conteos de picos neuronales (distribución de Poisson o Binomial Negativa), datos binarios (presencia/ausencia de respuesta, distribución de Bernoulli) y, con ciertas asunciones, señales continuas como la señal BOLD en fMRI (distribución Normal).

¿Por qué usar un GLM en lugar de una regresión lineal simple para datos de conteo?
La regresión lineal simple asume normalidad y varianza constante, lo cual no es apropiado para conteos (que son no negativos y a menudo tienen una varianza que aumenta con la media). Un GLM con distribución de Poisson o Binomial Negativa y función de enlace logarítmica modela adecuadamente estas propiedades, llevando a inferencias más válidas y a menudo con mayor potencia estadística.

¿Cómo se utilizan los GLMs para estudiar la conectividad en neurociencia?
En modelos de picos neuronales, los parámetros de acoplamiento (αij) estimados al ajustar un GLM describen cómo la historia de disparo de una neurona presináptica influye en la probabilidad de disparo de una neurona postsináptica. Estos parámetros cuantifican la fuerza y el tipo de conectividad funcional entre las neuronas.

¿Qué significan los "pesos beta" en un GLM aplicado a fMRI?
Los pesos beta (β) son los coeficientes estimados que cuantifican la magnitud de la relación entre cada regrésor (variable independiente, como un evento experimental) y la señal BOLD en un vóxel particular, después de tener en cuenta la influencia de los otros regresores en el modelo. Indican cuánto cambia la señal BOLD (en promedio) por unidad de cambio en el regrésor, después de pasar por la función de enlace (en este caso, la identidad para la señal BOLD).

Conclusión

Los Modelos Lineales Generalizados son herramientas estadísticas indispensables en la neurociencia moderna. Su flexibilidad para modelar diversos tipos de datos neuronales, su capacidad para incorporar distribuciones de probabilidad apropiadas y el uso de funciones de enlace para capturar relaciones no lineales directas con los predictores los hacen ideales para desentrañar los complejos patrones de actividad en el cerebro. Desde la modelización precisa de los patrones de disparo de neuronas individuales hasta el análisis de la actividad a gran escala en datos de fMRI, los GLMs proporcionan un marco poderoso para probar hipótesis y cuantificar las relaciones entre la actividad neural y los factores experimentales o endógenos. Si bien requieren una consideración cuidadosa de sus asunciones y pueden necesitar procedimientos de inferencia avanzados como el remuestreo para garantizar la validez, su capacidad para proporcionar información detallada y cuantitativa sobre cómo funciona el cerebro los convierte en un pilar del análisis neurocientífico.

Si quieres conocer otros artículos parecidos a Modelos Lineales Generalizados en Neurociencia puedes visitar la categoría Neurociencia.

Foto del avatar

Jesús Porta Etessam

Soy licenciado en Medicina y Cirugía y Doctor en Neurociencias por la Universidad Complutense de Madrid. Me formé como especialista en Neurología realizando la residencia en el Hospital 12 de Octubre bajo la dirección de Alberto Portera y Alfonso Vallejo, donde también ejercí como adjunto durante seis años y fui tutor de residentes. Durante mi formación, realicé una rotación electiva en el Memorial Sloan Kettering Cancer Center.Posteriormente, fui Jefe de Sección en el Hospital Clínico San Carlos de Madrid y actualmente soy jefe de servicio de Neurología en el Hospital Universitario Fundación Jiménez Díaz. Tengo el honor de ser presidente de la Sociedad Española de Neurología, además de haber ocupado la vicepresidencia del Consejo Español del Cerebro y de ser Fellow de la European Academy of Neurology.A lo largo de mi trayectoria, he formado parte de la junta directiva de la Sociedad Española de Neurología como vocal de comunicación, relaciones internacionales, director de cultura y vicepresidente de relaciones institucionales. También dirigí la Fundación del Cerebro.Impulsé la creación del grupo de neurooftalmología de la SEN y he formado parte de las juntas de los grupos de cefalea y neurooftalmología. Además, he sido profesor de Neurología en la Universidad Complutense de Madrid durante más de 16 años.

Subir