El Gigante Oculto: Big Data en Genómica

Valoración: 4.67 (7334 votos)

El término "Big Data" se ha vuelto común en nuestro vocabulario diario, describiendo conjuntos de datos tan vastos y complejos que las herramientas de procesamiento de datos tradicionales no son suficientes. Existen muchos tipos de Big Data a nuestro alrededor. En finanzas, por ejemplo, se utilizan datos de género o tiempo de compra de los consumidores para personalizar anuncios de marketing. En la gestión del tráfico, el número de accidentes en una ciudad puede usarse para mejorar la seguridad vial. En el sector de la salud, las imágenes médicas son un tipo de Big Data que alimenta sistemas de análisis automáticos para facilitar la toma de decisiones clínicas.

What is big data in genomics?
1 EB equals 1,000 PB (petabytes) or 1,000,000 GB (gigabytes). The numbers are so large that we can't perceive them well, but they certainly seem like huge numbers. Nevertheless, the largest big data around us is genomic data. Genomic data refers to the genetic information within 3 billion bases in humans.

Pero, ¿dónde se produce la mayor cantidad de datos en nuestra vida cotidiana? Muchos podrían pensar en las grandes plataformas de contenido digital. YouTube, la plataforma de producción y consumo de video más grande del mundo, genera aproximadamente entre 1 y 2 Exabytes (EB) de datos al año. Para poner esto en perspectiva, 1 EB equivale a 1,000 Petabytes (PB) o 1,000,000 Terabytes (TB) o 1,000,000,000 Gigabytes (GB). Son números tan colosales que nuestra mente tiene dificultades para comprenderlos, pero sin duda representan volúmenes enormes.

Sin embargo, sorprendentemente, el Big Data más grande que nos rodea es el dato genómico.

Índice de Contenido

¿Qué es el Big Data Genómico?

El dato genómico se refiere a la información genética contenida en los aproximadamente 3 mil millones de bases nitrogenadas que componen el genoma humano. La secuencia genómica de una persona se lee con diversos fines, como pruebas para prescribir tratamientos personalizados, determinar el riesgo genético de padecer ciertas enfermedades o diagnosticar enfermedades genéticas raras. Se estima que la cantidad de datos genómicos producidos anualmente asciende a unos 220 millones de genomas, lo que equivale a aproximadamente 40 Exabytes por año. Esta cifra es 40 veces superior a la cantidad de datos generados en YouTube que mencionamos anteriormente.

En 2003, el Proyecto Genoma Humano logró descifrar las 3 mil millones de piezas que conforman el rompecabezas del cuerpo humano. Este hito generó la esperanza de un futuro prometedor donde todas las enfermedades podrían ser conquistadas. Sin embargo, resolver los secretos de cada una de esas 3 mil millones de piezas resultó ser una tarea compleja.

Gracias al rápido desarrollo tecnológico, el costo de secuenciar el genoma de una persona ha disminuido drásticamente. Actualmente, es posible leer la secuencia completa de nucleótidos de un individuo por alrededor de $1,000 dólares. No obstante, la secuenciación rápida y económica no fue la solución completa. Han pasado dos décadas desde que finalizó el Proyecto Genoma Humano y los desafíos persisten. ¿Cuáles son estos problemas?

Los Gigantescos Desafíos del Big Data Genómico

El manejo y análisis del Big Data genómico presenta obstáculos significativos en varias etapas:

1. Tiempo de Computación

Leer los datos genómicos es solo el primer paso. Después, es necesario procesarlos. Actualmente, no es posible leer el genoma completo de principio a fin en una sola lectura. En su lugar, el genoma se corta en fragmentos cortos de aproximadamente 400 pares de bases (pb), y se leen ambos extremos con una longitud de unos 150 pb. Estos fragmentos se almacenan inicialmente en archivos llamados FASTQ. Un archivo FASTQ contiene la secuencia de nucleótidos leída y la calidad de cada base. Por ejemplo, una lectura de WGS 30x (es decir, que cada base se lee en promedio 30 veces) genera aproximadamente 10 mil millones de pb de datos crudos.

Estos archivos FASTQ se reensamblan posteriormente en secuencias más largas alineándolos con una secuencia de referencia del genoma humano. Este proceso da como resultado archivos conocidos como BAM (Binary Alignment Map). Luego, a partir de los 3 mil millones de posiciones del genoma, se identifican las posiciones que son diferentes de la secuencia de referencia. Estas diferencias se llaman variantes. Un archivo que lista estas variantes se conoce como archivo VCF (Variant Call Format).

Es importante diferenciar los tipos de secuenciación: la secuenciación del genoma completo (WGS, Whole Genome Sequencing) lee las 3 mil millones de bases. La secuenciación del exoma completo (WES, Whole Exome Sequencing) lee solo las regiones codificantes de proteínas (exones), que representan aproximadamente el 1-2% del genoma. La secuenciación dirigida (Target Sequencing) lee únicamente posiciones genéticas específicas de interés. Cuando se secuencia solo una región específica, el proceso de identificación de variantes se limita a las mutaciones en esa área. Los archivos que definen estas áreas específicas se llaman archivos BED.

En un archivo VCF de WGS, hay aproximadamente 5 millones de mutaciones por persona, lo que representa alrededor del 0.16% del total de 3 mil millones de pb. Aunque se les llama "mutaciones", no todas tienen un impacto negativo; algunas determinan características visibles como el color de piel o cabello, mientras que otras pueden causar enfermedades graves.

Convertir los datos brutos de FASTQ a archivos VCF para un genoma completo (WGS) requiere un tiempo considerable. En equipos de servidor de alto rendimiento, este proceso tarda al menos 24 horas. Si se realiza el análisis en un PC doméstico con especificaciones mínimas (al menos 16GB de memoria), el tiempo puede extenderse hasta dos semanas. El análisis de datos de secuenciación del exoma (WES), al ser un conjunto de regiones mucho más pequeño, es considerablemente más rápido, tomando aproximadamente 2 horas.

2. Almacenamiento

La secuenciación del genoma de una persona genera múltiples archivos: FASTQ, BAM y VCF. Leer las 3 mil millones de bases al menos 30 veces (WGS 30x) produce aproximadamente 90 mil millones de caracteres de datos crudos. Veamos esto en términos de tamaño de archivo:

Tipo (Profundidad Media)FASTQBAMVCFSUMA
WES (100x)5 GB8 GB0.1 GB13 GB
WGS (30x)80 GB100 GB1 GB180 GB

Comparativamente, una película de 135 minutos suele ocupar alrededor de 3 GB. Un solo genoma humano secuenciado (WGS 30x) tiene un tamaño similar al de unas 60 películas. El desafío del almacenamiento es inmenso.

Consideremos los costos. A principios de 2022, un disco duro externo de 1 TB costaba unos $70. En él, se podrían almacenar datos genómicos de unas 5 personas con WGS. ¿Qué pasa con el almacenamiento en la nube? Servicios como AWS (Amazon Web Services) cuestan alrededor de $0.025/GB por mes. Para un solo genoma (180 GB), esto sería $4.5/mes. Parece poco, pero si consideramos un proyecto con 1000 muestras (un número mínimo para filtrar variantes comunes en una población), el costo simple de almacenamiento ascendería a $4500/mes, una cifra considerable.

ProveedorServicioPrecio/GBPrecio por 1 muestra WGS (180GB)
AWSS3 Standard$0.025/GB$4.5
Google CloudCloud Storage$0.023/GB$4.14
Microsoft AzurePremium$0.15/GB$27.0

Estos costos de almacenamiento se vuelven un factor crítico en proyectos a gran escala que involucran miles o millones de genomas.

3. Transferencia de Datos

Cuando hablamos de una conexión de red rápida, pensamos en internet gigabit, que ofrece una velocidad teórica de 1 Gb/s o 125 MB/s. Calculemos el tiempo de transferencia para un genoma WGS completo (180 GB) a esta velocidad máxima: 180 GB / 125 MB/s = 1440 segundos = 24 minutos. A primera vista, parece un tiempo aceptable.

What is the best data repository?
THE BEST FREE RESEARCH DATA REPOSITORYDryadFigShareZenodoOpen Science FrameworkMendeleySummary

Sin embargo, en la práctica, las redes suelen tener políticas de gestión de tráfico (QoS - Quality of Service) que aplican límites de velocidad al exceder un cierto volumen de datos. Supongamos que el límite es de 100 GB a máxima velocidad antes de reducirse a 100 Mb/s (12.5 MB/s), que es 1/10 de la velocidad gigabit. La transferencia de 180 GB tomaría entonces: (100 GB / 125 MB/s) + (80 GB / 12.5 MB/s) = 13.3 minutos + 6400 segundos = 13.3 minutos + 106.7 minutos = aproximadamente 2 horas.

Si se transfieren múltiples muestras secuencialmente, la segunda muestra y las subsiguientes se transferirían a la velocidad reducida (100 Mb/s), tomando aproximadamente 180 GB / 12.5 MB/s = 4 horas por muestra. Esto no solo afecta la recepción, sino también el envío de datos. Un archivo de 180 GB es vastly diferente a un documento que se envía por correo electrónico. Compartir estos datos con colaboradores es un desafío logístico. En muchos casos, la solución práctica sigue siendo almacenar los datos en discos duros externos y enviarlos físicamente.

4. Interpretación de Variantes

Leer, almacenar y transmitir los datos genómicos es complicado, pero el paso más crucial es el análisis y la interpretación de estos datos. Procesar los datos brutos en un PC personal es difícil o imposible debido a los requisitos computacionales. Cuanto mejores sean las especificaciones del servidor utilizado para el análisis, más rápido será el proceso.

Para crear datos de variantes (archivos VCF) a partir de datos de genoma completo (FASTQ), utilizando un servidor potente (por ejemplo, CPU de 40 hilos y 250 GB de RAM), se estima que tarda unas 24 horas por muestra. Si se utilizan servicios de computación en la nube, los costos por el tiempo de procesamiento para extraer las variantes son significativos:

ProveedorServicioCPU (hilos)RAM (GB)Precio/horaPrecio por 1 muestra WGS (24h)
AWSr5.8xlarge32256$2.016/h$48.384
Google Cloudc2-standard-6060240$2.51/h$60.24
Microsoft AzureE32a v432256$3.712/h$89.088

Una vez generados los archivos VCF, que contienen información sobre aproximadamente 5 millones de variantes por persona, el desafío final es encontrar, entre esta inmensa cantidad de diferencias, aquellas variantes que están realmente relacionadas con una enfermedad o condición clínica específica, basándose en la información del paciente y el conocimiento científico actual. Este paso de interpretación requiere algoritmos complejos, bases de datos actualizadas y experiencia clínica.

Conclusión

Como hemos visto, lidiar con la enorme cantidad de datos en genómica presenta múltiples dificultades, especialmente en entornos computacionales limitados. Aquellos que han recibido datos genéticos de empresas de secuenciación saben que encontrar información significativa en los datos genéticos brutos no es una tarea sencilla.

Por lo tanto, para la interpretación de los datos genéticos, se recomienda encarecidamente buscar el apoyo de empresas con amplia experiencia en el manejo de este tipo de Big Data. Estas empresas suelen contar con bases de datos actualizadas diariamente con la información más reciente sobre variantes y enfermedades, y afinan constantemente sus algoritmos de diagnóstico. Utilizar sus servicios permite centrar los esfuerzos en las pocas variantes identificadas como potencialmente relevantes, poniendo fin a la "odisea diagnóstica" que a menudo enfrentan los pacientes con enfermedades genéticas raras.

No obstante, si hay lectores interesados en explorar los datos genómicos brutos, en un futuro artículo detallaremos los tipos de archivos más comunes en el análisis genómico y exploraremos sus formatos y estructuras de datos.

Preguntas Frecuentes sobre Big Data Genómico

¿Qué hace que los datos genómicos sean "Big Data"?
El genoma humano contiene 3 mil millones de bases. Al secuenciarlo múltiples veces (por ejemplo, 30x para WGS), se generan cientos de gigabytes de datos por persona. Cuando se acumulan datos de miles o millones de individuos para estudios poblacionales o clínicos, el volumen total alcanza petabytes o exabytes, superando la capacidad de las herramientas de procesamiento y almacenamiento convencionales.

¿Por qué es tan difícil procesar datos genómicos?
El procesamiento implica varias etapas computacionalmente intensivas: alinear millones de fragmentos cortos a un genoma de referencia, identificar y llamar a las variantes, y luego anotar e interpretar estas variantes en el contexto de bases de datos genéticas y clínicas. Cada paso requiere hardware potente (CPU, RAM) y tiempo de procesamiento.

¿Cuáles son los principales desafíos además del procesamiento?
Los desafíos clave son el almacenamiento masivo de los datos crudos y procesados (archivos FASTQ, BAM, VCF), que requiere infraestructuras costosas locales o en la nube; la transferencia de estos enormes archivos a través de redes, que es lenta y logísticamente complicada; y la interpretación de las variantes encontradas para determinar su relevancia clínica o biológica.

¿Qué significan WGS y WES?
WGS (Whole Genome Sequencing) es la secuenciación del genoma completo, leyendo la mayoría de las 3 mil millones de bases. WES (Whole Exome Sequencing) es la secuenciación del exoma completo, leyendo solo las regiones codificantes de proteínas (exones), que son una pequeña fracción del genoma pero contienen la mayoría de las variantes causantes de enfermedades mendelianas.

¿Qué son los archivos FASTQ, BAM y VCF?
Son formatos de archivo estándar en genómica. FASTQ almacena las lecturas crudas del secuenciador con información de calidad. BAM (Binary Alignment Map) almacena las lecturas alineadas al genoma de referencia. VCF (Variant Call Format) lista las variantes genéticas (diferencias respecto a la referencia) encontradas en una muestra.

Comparativa de Tamaño y Costo de Almacenamiento

Para ilustrar la magnitud, comparemos el tamaño de los datos de diferentes tipos de secuenciación y el costo aproximado de su almacenamiento en la nube por un mes para una sola persona:

Tipo de SecuenciaciónTamaño Total Aproximado (GB)Costo Mensual Aprox. (AWS S3)
WES (100x)13 GB~$0.33
WGS (30x)180 GB~$4.50
Datos de 1000 WGS (30x)180,000 GB (180 TB)~$4500.00

Esta tabla resalta cómo, aunque el costo por GB pueda parecer bajo, el volumen total de datos en proyectos a gran escala genera costos de almacenamiento muy elevados.

Si quieres conocer otros artículos parecidos a El Gigante Oculto: Big Data en Genómica puedes visitar la categoría Neurociencia.

Foto del avatar

Jesús Porta Etessam

Soy licenciado en Medicina y Cirugía y Doctor en Neurociencias por la Universidad Complutense de Madrid. Me formé como especialista en Neurología realizando la residencia en el Hospital 12 de Octubre bajo la dirección de Alberto Portera y Alfonso Vallejo, donde también ejercí como adjunto durante seis años y fui tutor de residentes. Durante mi formación, realicé una rotación electiva en el Memorial Sloan Kettering Cancer Center.Posteriormente, fui Jefe de Sección en el Hospital Clínico San Carlos de Madrid y actualmente soy jefe de servicio de Neurología en el Hospital Universitario Fundación Jiménez Díaz. Tengo el honor de ser presidente de la Sociedad Española de Neurología, además de haber ocupado la vicepresidencia del Consejo Español del Cerebro y de ser Fellow de la European Academy of Neurology.A lo largo de mi trayectoria, he formado parte de la junta directiva de la Sociedad Española de Neurología como vocal de comunicación, relaciones internacionales, director de cultura y vicepresidente de relaciones institucionales. También dirigí la Fundación del Cerebro.Impulsé la creación del grupo de neurooftalmología de la SEN y he formado parte de las juntas de los grupos de cefalea y neurooftalmología. Además, he sido profesor de Neurología en la Universidad Complutense de Madrid durante más de 16 años.

Subir