Is statistics used in neuroscience?

Estadística en Neurociencia: Clásico vs Moderno

Valoración: 3.47 (5222 votos)

La neurociencia, en su búsqueda por comprender la complejidad del cerebro humano, se apoya cada vez más en herramientas cuantitativas. Tradicionalmente, el análisis de datos en neuroimagen, por ejemplo, ha dependido en gran medida de la estadística clásica, empleando técnicas como pruebas t, ANOVA y análisis de regresión para evaluar hipótesis predefinidas y localizar efectos cerebrales. Sin embargo, el rápido crecimiento en la riqueza, complejidad y dimensionalidad de los datos neurocientíficos ha impulsado la creciente popularidad de los métodos de aprendizaje estadístico. Estas técnicas, a menudo asociadas con el aprendizaje automático, se destacan en la identificación de patrones complejos y en la predicción fuera de muestra.

Is statistics used in neuroscience?
For a long time, knowledge generation in psychology, neuroscience, and medicine has been dominated by classical statistics with estimation of linear-regression-like models and subsequent statistical significance testing whether an effect exists in the sample.

Esta evolución ha generado, en ocasiones, malentendidos entre las metodologías basadas en la prueba de hipótesis nula y las basadas en la generalización de patrones. Ambas culturas estadísticas, con orígenes históricos, fundamentos teóricos y objetivos distintos, ofrecen perspectivas diferentes pero complementarias para investigar el cerebro. Como dijo Breiman (2001), “El truco de ser científico es estar abierto a usar una amplia variedad de herramientas”. Comprender estas diferencias es crucial para una interpretación adecuada de los hallazgos en neurociencia.

Índice de Contenido

Historia y Evolución de las Culturas Estadísticas

Para apreciar las diferencias conceptuales, es útil revisar la historia de estas dos culturas estadísticas. La estadística clásica (ClSt) vio nacer muchos de sus conceptos fundamentales a principios del siglo XX. Figuras como Ronald A. Fisher, con su desarrollo del análisis de varianza (ANOVA) y la prueba de hipótesis nula, y la dupla de Jerzy Neyman y Egon S. Pearson, quienes introdujeron la hipótesis alternativa, la potencia estadística y los errores tipo I y II, sentaron las bases del marco inferencial que domina hasta hoy en muchas ciencias empíricas como la psicología y la medicina. Estas herramientas, desarrolladas en una época anterior a las calculadoras electrónicas, estaban diseñadas para problemas con tamaños de muestra relativamente pequeños y modelos analíticamente tratables.

Por otro lado, el aprendizaje estadístico (StLe), aunque con algunas raíces en la estadística clásica, floreció principalmente en la segunda mitad del siglo XX. Impulsado por el aumento de la capacidad computacional y la disponibilidad de datos más grandes y complejos, este campo se desarrolló a menudo fuera de los departamentos de estadística tradicionales, en áreas como la informática y la ingeniería. Pioneros como John W. Tukey vislumbraron la “colisión pacífica de la computación y la estadística”. El perceptrón (Rosenblatt, 1958) y el programa de damas de Arthur Samuel (1959) son ejemplos tempranos de enfoques algorítmicos hacia la inteligencia artificial, precursores del aprendizaje automático. La consolidación conceptual llegó con obras fundamentales como “The Elements of Statistical Learning” (Hastie et al., 2001). Métodos como máquinas de vectores de soporte, bosques aleatorios y redes neuronales profundas emergieron y ganaron terreno, especialmente al abordar conjuntos de datos de alta dimensionalidad, donde el número de variables (p) excede con creces el número de observaciones (n).

La neurociencia adoptó la estadística clásica desde el principio de las técnicas de neuroimagen como la PET y la fMRI. El modelo lineal general (GLM), implementado en software como SPM, se convirtió en el estándar para el análisis univariado masivo, tratando cada vóxel cerebral de forma independiente para localizar cambios de actividad. Sin embargo, la incapacidad del GLM univariado estándar para manejar eficazmente la alta dimensionalidad y capturar patrones distribuidos abrió la puerta a métodos de StLe. Aunque enfoques multivariados tempranos como PCA o CCA se usaron, el punto de inflexión llegó con el análisis de correlación entre vóxeles de Haxby et al. (2001), que demostró la importancia de los patrones multivariados. El auge del “decodificación cerebral” o MVPA popularizó aún más las técnicas de StLe en neuroimagen, centrándose en la predicción de estados mentales o variables conductuales a partir de patrones de actividad cerebral, a menudo utilizando la validación cruzada para evaluar la generalización a nuevos datos.

Filosofías de Modelado: Clásico vs. Aprendizaje Estadístico

Existe una distinción fundamental en la filosofía subyacente a la estadística clásica y al aprendizaje estadístico. La estadística clásica, a menudo aplicada a datos experimentales donde el investigador controla variables, tiende a asumir que los datos se generaron según un mecanismo o modelo conocido (o postulado). El objetivo principal es la inferencia: probar formalmente hipótesis sobre los parámetros de este modelo y generalizar conclusiones sobre la población a partir de la muestra observada. Se busca explicar la relación entre variables de forma analítica y rigurosa.

El aprendizaje estadístico, por otro lado, a menudo se aplica a datos observacionales, más complejos y de alta dimensionalidad, donde el proceso generador de datos es en gran parte desconocido o intratable analíticamente. El objetivo principal es la predicción: construir una función matemática que pueda predecir una salida (variable objetivo) a partir de una entrada (características) con la mayor precisión posible en datos no vistos previamente. Se prioriza encontrar aproximaciones útiles a los patrones en los datos de forma heurística y algorítmica, con menos énfasis inicial en la interpretabilidad del modelo subyacente o en la prueba formal de hipótesis sobre parámetros específicos.

Podemos resumir algunas diferencias clave en su filosofía de modelado:

Estadística ClásicaAprendizaje Estadístico
Enfoque: Modelado explicativoEnfoque: Modelado predictivo
Objetivo: Inferir sobre la poblaciónObjetivo: Generalizar a nuevos datos
Proceso generador de datos: Asumido/Parcialmente conocidoProceso generador de datos: Complejo/Mayormente desconocido
Modelos: Más rígidos, con pocos parámetrosModelos: Más flexibles, con muchos parámetros
Paradigma: Prueba de hipótesis nulaParadigma: Teoría del aprendizaje estadístico (ej. VC dimensions)
Evaluación: Rendimiento dentro de muestra (in-sample)Evaluación: Rendimiento fuera de muestra (out-of-sample)
Problema clave: Problema de comparaciones múltiplesProblema clave: Maldición de la dimensionalidad, sobreajuste
Datos típicos: Experimentales, n > pDatos típicos: Observacionales, n << p

Aplicaciones en Neuroimagen: Dos Enfoques

Estas filosofías se traducen en enfoques de análisis distintos en neuroimagen.

Localización vs. Decodificación

Un ejemplo clásico (Caso 1) es la diferencia entre un análisis de contraste cognitivo y la decodificación de estados mentales. Un análisis de contraste, típicamente usando GLM, es un enfoque de ClSt y sigue una “agenda de localización”. Ajusta un modelo (por ejemplo, para contrastar ver caras vs. casas) en cada vóxel cerebral de forma independiente (análisis univariado masivo) y realiza una prueba t para determinar si hay una diferencia estadísticamente significativa en la actividad promedio entre condiciones en ese vóxel. Esto busca responder “¿dónde?” en el cerebro ocurre un efecto, basándose en la suposición de sustracción cognitiva. Este es un ejemplo de inferencia “hacia adelante” (forward inference): dada la condición experimental, ¿qué actividad cerebral se observa?

La decodificación (por ejemplo, usando MVPA) es un enfoque de StLe y sigue una “agenda de información”. Entrena un algoritmo de clasificación (por ejemplo, una máquina de vectores de soporte) en patrones de actividad distribuidos a través de múltiples vóxeles para predecir la condición experimental (cara vs. casa) en datos no vistos. El objetivo es determinar cuánta información sobre la condición está codificada en el patrón de actividad, respondiendo a “¿qué?” información puede ser extraída de la actividad cerebral. Este es un ejemplo de inferencia “inversa” (reverse inference): dada la actividad cerebral, ¿qué estado cognitivo es probable? Mientras que el GLM explica la actividad cerebral por las condiciones, la decodificación predice las condiciones a partir de la actividad cerebral. La agenda de localización se centra en los cambios de nivel de actividad promedio, mientras que la agenda de información se centra en los patrones espaciales distribuidos.

Manejo de la Dimensionalidad

El manejo de la alta dimensionalidad es otro punto clave de divergencia. En ClSt univariada masiva, el principal desafío es el “problema de comparaciones múltiples”. Al realizar miles de pruebas estadísticas (una por vóxel), aumenta la probabilidad de encontrar falsos positivos por azar (Errores Tipo I). Técnicas como la corrección de Bonferroni, la teoría de campos aleatorios o la tasa de falsos descubrimientos (FDR) se usan para controlar este problema. La corrección de volumen pequeño (SVC, Caso 2) es una técnica de ClSt que limita el espacio de búsqueda a una región de interés predefinida para mitigar el problema de comparaciones múltiples.

En StLe, el desafío es la “maldición de la dimensionalidad” y el sobreajuste. Con muchas variables (vóxeles), es fácil que un modelo flexible aprenda el ruido específico de los datos de entrenamiento en lugar de la verdadera relación subyacente, lo que lleva a un bajo rendimiento en datos nuevos. El sobreajuste ocurre cuando el modelo es demasiado complejo para la cantidad de datos disponibles. La validación cruzada es la herramienta estándar para evaluar la generalización y detectar el sobreajuste. Técnicas de regularización (como en LASSO o ElasticNet) o selección de características (como en el análisis de searchlight, Caso 2) se usan para manejar la alta dimensionalidad. El análisis de searchlight aplica algoritmos de aprendizaje a pequeñas esferas de vóxeles en todo el cerebro, evaluando la capacidad predictiva localmente. Esto aborda la dimensionalidad localmente en lugar de globalmente como en ClSt univariada masiva.

El “compromiso sesgo-varianza” (bias-variance tradeoff) es central en StLe. Modelos simples (alto sesgo) pueden subajustar (underfit) porque no capturan la complejidad real, pero generalizan bien (baja varianza). Modelos complejos (baja sesgo) pueden ajustarse perfectamente a los datos de entrenamiento, pero sobreajustar (high variance) y generalizar mal. Elegir un modelo adecuado implica equilibrar sesgo y varianza, algo que depende de la cantidad de datos y la complejidad del fenómeno real.

Combinando Métodos: Selección y Inferencia

Surgen desafíos cuando se intentan combinar directamente técnicas de ambas culturas. Un error común en ClSt es la “doble inmersión” (double dipping) o análisis circular (Caso 3 y 5). Esto ocurre cuando se usa la misma muestra de datos para seleccionar características (por ejemplo, vóxeles significativamente asociados con una variable) y luego para realizar una prueba estadística sobre esas mismas características seleccionadas. Esto invalida las garantías teóricas de la prueba de hipótesis nula, sesgando los p-valores.

En StLe, el análogo es el “espionaje de datos” (data snooping o peeking) (Caso 3 y 5). Esto ocurre cuando la información del conjunto de prueba (test set) influye en cualquier paso del proceso de modelado realizado en el conjunto de entrenamiento (training set), incluida la selección de características o el preprocesamiento. Esto lleva a estimaciones de rendimiento (como la precisión) overly optimistas que no se sostienen en datos verdaderamente nuevos. La solución en StLe es asegurar que cualquier paso de selección o preprocesamiento que dependa de la variable objetivo se realice *solo* dentro del conjunto de entrenamiento en cada iteración de la validación cruzada.

La combinación de selección de variables (a menudo vista como StLe exploratorio) y la inferencia clásica (ClSt confirmatorio) es un área activa de investigación (Caso 4). La inferencia post-selección (o inferencia selectiva) desarrolla métodos para calcular p-valores válidos *después* de haber seleccionado variables basándose en los datos (por ejemplo, usando LASSO). Alternativamente, dividir los datos en dos conjuntos independientes (uno para selección/modelado, otro para inferencia) es una solución simple pero que reduce la potencia estadística.

Descubrimiento de Estructuras

El aprendizaje no supervisado, como el clustering (Caso 6), es un ejemplo de StLe utilizado para el descubrimiento exploratorio de estructuras en los datos sin una variable objetivo predefinida. En neuroimagen, se usa para parcelar regiones cerebrales basándose en patrones de conectividad similares. El objetivo es encontrar agrupaciones útiles o simplificadas en los datos. Sin embargo, surge el “problema de validez del clustering”: no hay una forma única y formal de determinar si los clusters encontrados son estadísticamente significativos o cuál es el número “correcto” de clusters. Las métricas de validez de clustering son heurísticas y dependen del algoritmo y los datos. A diferencia de ClSt, donde se prueba una hipótesis nula predefinida, en el clustering a menudo no existe una hipótesis nula obvia y meaningful contra la cual probar. Los resultados del clustering se ven más como hipótesis candidatas para futuras investigaciones dirigidas.

Midiendo el Éxito: Métricas y Evaluación

Las métricas utilizadas para evaluar el éxito difieren significativamente entre ClSt y StLe (Caso 3).

Métricas Clásicas

En ClSt, las métricas se centran en la inferencia dentro de la muestra observada para generalizar a la población:

  • p-valor: La probabilidad de observar resultados tan extremos o más que los obtenidos, asumiendo que la hipótesis nula es verdadera. Un p-valor bajo (típicamente < 0.05) lleva al rechazo de la hipótesis nula. Es crucial recordar que no es la probabilidad de que la hipótesis nula sea verdadera, ni la probabilidad de replicación.
  • Tamaño del efecto: Cuantifica la magnitud de un efecto o la fuerza de una relación estadística, independientemente del tamaño de la muestra. Es esencial para evaluar la relevancia práctica de un hallazgo, incluso si es estadísticamente significativo.
  • Intervalos de confianza: Proporcionan un rango de valores dentro del cual es probable que se encuentre el verdadero parámetro poblacional con un cierto nivel de confianza (ej. 95%). Indican la precisión de la estimación.
  • Potencia estadística: La probabilidad de rechazar correctamente una hipótesis nula falsa. Depende del tamaño del efecto, el tamaño de la muestra, la variabilidad y el umbral de significancia (alfa). Una baja potencia aumenta la probabilidad de falsos negativos (Errores Tipo II).

Estas métricas se basan en estimaciones dentro de la muestra (in-sample estimates).

Métricas de Aprendizaje Estadístico

En StLe, las métricas se centran en la capacidad de predicción y generalización a datos no vistos:

  • Precisión de clasificación: La fracción de predicciones correctas (casos bien clasificados) sobre el total de predicciones. Es una métrica simple pero puede ser engañosa en conjuntos de datos desequilibrados.
  • Matriz de confusión: Una tabla que resume el rendimiento de un clasificador, mostrando los verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos.
  • Precision y Recall: Precision (o valor predictivo positivo) responde a: de todas las instancias predichas como positivas, ¿cuántas son realmente positivas? Recall (o sensibilidad) responde a: de todas las instancias realmente positivas, ¿cuántas fueron correctamente identificadas?
  • F1 Score: La media armónica de precision y recall, útil para equilibrar ambos cuando hay clases desequilibradas.
  • Curvas ROC (Receiver Operating Characteristic) y curvas Precision-Recall: Representaciones gráficas del rendimiento del clasificador a través de diferentes umbrales, mostrando el equilibrio entre sensibilidad y especificidad (ROC) o precisión y recall. El Área bajo la curva (AUC) resume el rendimiento general.
  • Curvas de aprendizaje: Gráficos que muestran el rendimiento del modelo (en entrenamiento y prueba) como función del tamaño del conjunto de entrenamiento. Ayudan a diagnosticar si el modelo está sufriendo de sesgo alto (subajuste) o varianza alta (sobreajuste).

Estas métricas se basan en estimaciones fuera de la muestra (out-of-sample estimates), obtenidas típicamente mediante validación cruzada.

Es importante entender que un modelo con alto poder explicativo (buen ajuste dentro de muestra, bajos p-valores en ClSt) no necesariamente tendrá un alto poder predictivo (buena generalización fuera de muestra, alta precisión en StLe), y viceversa. Las dos culturas juzgan el rendimiento en aspectos diferentes.

Nociones Clave: Un Resumen Comparativo

Aquí se resumen algunas nociones clave asociadas con cada cultura estadística:

Estadística ClásicaAmbasAprendizaje Estadístico
Prueba de hipótesis nulaModeladoTeoría del aprendizaje estadístico
InferenciaEstimaciónPredicción
p-valorValidación cruzada (uso limitado en ClSt)Precisión de clasificación
Tamaño del efectoIntervalos de confianza (aplicables a algunas métricas StLe con bootstrapping)Precision, Recall, F1
Potencia estadísticaRegresiónCurvas ROC/Precision-Recall
Errores Tipo I y IIAnálisis multivariado (MANCOVA vs MVPA)Curvas de aprendizaje
Modelo Lineal General (GLM)Selección de variablesMáquinas de Vectores de Soporte (SVM)
Análisis de Varianza (ANOVA)RegularizaciónLASSO, ElasticNet
Corrección de comparaciones múltiplesAnálisis de componentes principales (PCA)Clustering
Doble inmersión / Análisis circularInferencia post-selección (emergente)Espionaje de datos / Peeking

Preguntas Frecuentes

¿Cuál es la principal diferencia entre la estadística clásica y el aprendizaje estadístico en neurociencia?

La principal diferencia radica en sus objetivos y enfoques. La estadística clásica busca la inferencia y la explicación, probando hipótesis sobre la población a partir de la muestra. El aprendizaje estadístico busca la predicción y la generalización, construyendo modelos capaces de funcionar bien en datos nuevos.

¿Significa un p-valor bajo que el hallazgo es importante o replicable?

Un p-valor bajo (< 0.05) indica que los datos observados son poco probables si la hipótesis nula fuera verdadera, lo que lleva a rechazarla. Sin embargo, no mide la importancia práctica (para eso está el tamaño del efecto) ni garantiza la replicabilidad. Un efecto pequeño puede ser estadísticamente significativo con un tamaño de muestra grande.

¿Qué es la validación cruzada y por qué es importante en aprendizaje estadístico?

La validación cruzada es una técnica para estimar el rendimiento de un modelo (su capacidad de generalización) en datos no vistos. Divide repetidamente el conjunto de datos en un conjunto de entrenamiento y uno de prueba. El modelo se ajusta en el entrenamiento y se evalúa en el de prueba. Es crucial para obtener una estimación menos sesgada del rendimiento fuera de muestra y detectar el sobreajuste.

¿Qué son la maldición de la dimensionalidad y el sobreajuste?

La maldición de la dimensionalidad se refiere a los desafíos que surgen al analizar datos con un gran número de variables, especialmente cuando el número de observaciones es limitado. El sobreajuste es un problema relacionado donde un modelo se ajusta demasiado bien al ruido específico de los datos de entrenamiento, perdiendo capacidad de generalización a datos nuevos.

¿Puedo usar técnicas de estadística clásica y aprendizaje estadístico en el mismo análisis?

Sí, pero con precaución. Combinar la selección de variables basada en los datos (a menudo vista como StLe) con la inferencia clásica en la misma muestra de datos puede llevar a análisis circulares ("doble inmersión"), invalidando los resultados. Es vital usar conjuntos de datos independientes para la selección/modelado y la inferencia, o emplear métodos de inferencia post-selección.

¿Qué son las agendas de localización e información en neuroimagen?

La agenda de localización (asociada a ClSt, ej. GLM univariado) busca identificar regiones cerebrales específicas que muestran cambios de actividad significativos asociados a una condición. La agenda de información (asociada a StLe, ej. MVPA) busca determinar si una condición o información puede ser decodificada a partir de patrones de actividad distribuidos, sin necesariamente identificar una única región causal.

Conclusión

La estadística clásica y el aprendizaje estadístico representan dos culturas distintas en el análisis de datos neurocientíficos, cada una con sus fortalezas, debilidades y aplicaciones ideales. Mientras que la estadística clásica se centra en la inferencia sobre modelos preespecificados y la localización de efectos mediante la prueba de hipótesis, el aprendizaje estadístico se enfoca en la predicción y la generalización de patrones complejos a partir de datos de alta dimensionalidad. Problemas como las comparaciones múltiples en ClSt y la maldición de la dimensionalidad y el sobreajuste en StLe requieren enfoques metodológicos diferentes.

Lejos de ser mutuamente excluyentes, estas dos culturas pueden ser vistas como complementarias. Los hallazgos exploratorios del aprendizaje estadístico (como la identificación de patrones predictivos o la agrupación de datos) pueden generar nuevas hipótesis que luego pueden ser probadas formalmente utilizando métodos de estadística clásica en conjuntos de datos independientes. Del mismo modo, la inferencia clásica puede ayudar a validar la importancia de características identificadas por algoritmos de aprendizaje estadístico, siempre que se apliquen técnicas adecuadas como la inferencia post-selección o la división de datos. Abrazar la "dualidad saludable" de estas herramientas estadísticas permite a los neurocientíficos abordar la complejidad del cerebro desde múltiples ángulos, enriqueciendo nuestra comprensión de su estructura y función.

Si quieres conocer otros artículos parecidos a Estadística en Neurociencia: Clásico vs Moderno puedes visitar la categoría Neurociencia.

Foto del avatar

Jesús Porta Etessam

Soy licenciado en Medicina y Cirugía y Doctor en Neurociencias por la Universidad Complutense de Madrid. Me formé como especialista en Neurología realizando la residencia en el Hospital 12 de Octubre bajo la dirección de Alberto Portera y Alfonso Vallejo, donde también ejercí como adjunto durante seis años y fui tutor de residentes. Durante mi formación, realicé una rotación electiva en el Memorial Sloan Kettering Cancer Center.Posteriormente, fui Jefe de Sección en el Hospital Clínico San Carlos de Madrid y actualmente soy jefe de servicio de Neurología en el Hospital Universitario Fundación Jiménez Díaz. Tengo el honor de ser presidente de la Sociedad Española de Neurología, además de haber ocupado la vicepresidencia del Consejo Español del Cerebro y de ser Fellow de la European Academy of Neurology.A lo largo de mi trayectoria, he formado parte de la junta directiva de la Sociedad Española de Neurología como vocal de comunicación, relaciones internacionales, director de cultura y vicepresidente de relaciones institucionales. También dirigí la Fundación del Cerebro.Impulsé la creación del grupo de neurooftalmología de la SEN y he formado parte de las juntas de los grupos de cefalea y neurooftalmología. Además, he sido profesor de Neurología en la Universidad Complutense de Madrid durante más de 16 años.

Subir