La variación genética en una población crea un espectro impresionante de diversidad fenotípica, particularmente cuando los cambios en la dieta o el ambiente son impuestos en la población. La biología de sistemas represente un cambio paradigmático en el estudio de la salud y la enfermedad que es distinto, pero complementario, a los enfoques reduccionistas que predominaron en las últimas décadas, cuando genes individuales fueron clonados, secuenciados y caracterizados. La biología de sistemas está anclada en el concepto de que los rasgos o caracteres son propiedades emergentes de interacciones complejas entre genes, proteínas, células y tejidos. Así como Galeno y otros pioneros de la investigación médica trataron de comprender el cuerpo basándose en las interconexiones físicas entre sus componentes, la biología de sistemas construye una visión del organismo a nivel de sistemas ensamblando las interconexiones entre rasgos medidos a múltiples niveles de complejidad y escala, empleando varias herramientas estadísticas y computacionales.
La genética de sistemas es una versión especializada de la biología de sistemas que puede ser brevemente descrita como biología de sistemas de poblaciones. Las poblaciones, sean “naturales” o derivadas de un laboratorio, consisten de individuos en los cuales las variantes genéticas en múltiples loci a lo largo del genoma crean variación paralela en fenotipos suprayacentes, similar a un modelo experimental multifactorial. La variación fenotípica puede ser vista como una jerarquía de interacciones entre juegos de genes, proteínas, metabolitos, células y tejidos anclados a la variación genética subyacente. La meta de la genética de sistemas es capturar estas interacciones, mientras simultáneamente identifica variantes genéticas que alteran los fenotipos suprayacentes de interés. La genética de sistemas descubre la arquitectura de los rasgos o caracteres, proporcionando una revelación mecanística en las rutas que derivan en la variación fenotípica.
Práctica de la genética de sistemas
Fundamentalmente, la genética de sistemas es practicada para el fenotipado de una población en múltiples niveles de escala, desde la molecular a través de rasgos de orden más alto, para producir los bloques de construcción con los cuales puede ser ensamblada la arquitectura de un rasgo o carácter (en este documento se emplea la palabra rasgo, aunque en la literatura es común encontrar también la palabra carácter). El fenotipado molecular incluye típicamente micromatrices (también conocidos como microarrays o microarreglos), lo que soporta la identificación de redes gen-genotipo y el mapeo de variantes que regulan las redes, empleando enfoques tales como loci de rasgo cuantitativo expresado (eQTL, por sus siglas en inglés, que son loci genómicos que regulan los niveles de expresión de ARN mensajeros -mRNA, por sus siglas en inglés- o proteínas). Considerando el gran número de rasgos perfilados en una sola hibridización de micromatrices combinado con los muchos otros resultados medidos, todo realizado en una población de individuos, la densidad de datos es una característica inherente de los estudios de genética de sistemas. Por lo tanto, es una disciplina que es interdisciplinaria por naturaleza, requiriendo extensas colaboraciones entre biólogos, estadísticos y biólogos computacionales.
Las relaciones entre rasgos son extraídas utilizando una variedad de enfoques computacionales, los cuales comienzan con alguna medición de correlación de pares entre rasgos. Típicamente, el proceso de ensamblado de redes fenotípicas comienza a nivel de expresión génica, en donde juegos de transcritos con patrones similares de expresión a lo largo de la población son extraídos de datos de expresión génica a gran escala. La lógica detrás de las redes de coexpresión es que los genes que codifican proteínas que funcionan en la misma ruta exhibirán una expresión coordinada a través de la población al grado que son reguladas a nivel de abundancia de mRNA. La progresión de una gran matriz de correlación creada a partir de datos de micromatrices hacia la identificación de pequeños juegos de genes coexpresados requiere de algún nivel de umbralización (los métodos del valor umbral son un grupo de algoritmos cuya finalidad es segmentar gráficos rasterizados, es decir separar los objetos de una imagen que nos interesen del resto), seleccionando un valor de correlación sobre el cual las relaciones se consideran significativas. Después de la umbralización, se emplea una variedad de métodos para identificar redes de coexpresión putativas y enlazarlas a rasgos fisiológicos de orden más alto. Los algoritmos de grafos, que representan transcritos como nodos y las correlaciones entre transcritos como líneas, se utilizan ampliamente para representar las interacciones entre genes después de la umbralización. Los grafos pueden ser ponderados, en los cuales las líneas retienen información sobre la magnitud de la correlación entre los transcritos, o no ponderados, tratando todas las líneas de forma igual. El análisis de redes ponderadas de coexpresión génica (WGCNA, por sus siglas en inglés) construye grafos que toman en consideración el valor de correlación y ponderan los grafos de red resultantes a favor de altas correlaciones. Los módulos resultantes de genes interconectados son subgrafos densos en los cuales muchos, pero no todos los nodos, están interconectados.
La extracción clique es un enfoque alternativo que extrae juegos de transcritos perfectamente interconectados a partir de un grafo no ponderado de mayor tamaño. Los algoritmos clique proporcionan juegos de transcritos que son frecuentemente más pequeños que los módulos de WGCNA, per también no son disjuntos, permitiendo que los transcritos sean asignados a juegos múltiples de socios interactuantes. Ya sea que se utilicen cliques, módulos o algunos otros medios para extraer redes de genes putativos, la anotación funcional basada en enriquecimiento del proyecto Ontología Génica (GO, por sus siglas en inglés), mapeo de rutas y prospección de datos (data mining) de la literatura se emplean para identificar subgrafos densos que son enriquecidos en transcritos funcionalmente relacionados. Herramientas basadas en la red, como la Base de Datos para la Anotación, Visualización y Descubrimiento Integrado (DAVID, por sus siglas en inglés), son valiosos recursos para esta etapa.
En algunos casos, la relación entre el enriquecimiento funcional es obvio (por ejemplo, el enriquecimiento de GO para los genes del ciclo celular en un estudio de cáncer), mientras que en otros el enriquecimiento funcional puede resaltar rutas de interés que, a priori, no habrían sido asociadas a los rasgos a nivel de sistemas bajo estudio. Además de construir la arquitectura de rasgos de sistemas, los módulos o cliques son informativos por sí mismos. Por ejemplo, las funciones putativas de genes no anotados pueden ser inferidas a partir de genes con los cuales estos muestran una expresión correlacionada, basándose en el concepto de “culpable por asociación”.
Los métodos basados en correlación son también utilizados para asociar módulos con rasgos suprayacentes de orden superior. Si la expresión de un juego de genes dirige la variación de un rasgo, es razonable esperar que los transcritos mismos mostrarían correlación con el rasgo. Los transcritos que cumplen este criterio son referidos como transcritos de rasgo cuantitativo (QTT, por sus siglas en inglés) y son valiosos en la priorización de módulos para estudio adicional. Recientemente se implementó el QTT en un estudio de genética de sistemas de la masa corporal y rasgos de composición en un panel de lineas endogámicas de Drosophila melanogaster. Los QTT para el peso corporal, contenido de glicógeno, glicerol y triglicéridos fueron ensamblados en módulos utilizando WGCNA basados en interconexiones entre genes. Este enfoque identificó varios módulos significativos para cada rasgo, algunos de los cuales fueron enriquecidos en las funciones GO esperadas, mientras que otros representaron nuevas asociaciones entre redes génicas y rasgos. Otro grupo tomó un enfoque diferente, utilizando WGCNA para identificar 2 módulos de coexpresión consistentes en cientos de genes asociados con la variación genética en los niveles plasmáticos de triglicéridos. Los juegos de genes fueron mapeados a fenotipos, utilizando primero un análisis de componentes principales para colapsar los módulos en eigengenes (concepto que se emplea como un equivalente a ‘genes propios’) que representaron los genes más estrechamente correlacionados dentro de un módulo. Las relaciones entre eigengenes, más que los transcritos individuales, y los fenotipos a nivel de sistemas fueron evaluados utilizando modelado de regresión. Utilizando este enfoque, 2 eigengenes representando los niveles de expresión de varios cientos de genes explicaron el 30% de la variación en el nivel de triglicéridos en plasma. El mapeo QTL clásico puede también ayudar en relacionar juegos de genes a los fenotipos suprayacentes. Los transcritos pueden ser tratados como rasgos cuantitativos para identificar eQTL para cada transcrito dentro de un módulo; el traslape entre la posición de eQTL y el QTL para los rasgos de sistemas suprayacentes sugeriría una potencial relación causal entre los genes dentro del módulo y el rasgo.
El mapeo QTL puede también emplearse para inferir causalidad entre redes génicas y rasgos de orden más alto. Por ejemplo, un grupo de investigación aplicó un algoritmo basado en clique a datos de expresión cerebral a partir de un panel de cepas endogámicas recombinantes (RI, por sus siglas en inglés) BXD (C57BL/6J X DBA/2J) para identificar un juego de 193 transcritos que estaban estrechamente intercorrelacionados entre sí y con los niveles de hierro en el mesencéfalo y varias medidas de actividad locomotora. El mapeo QTL multilocus determinó que los niveles de expresión de muchos de los genes dentro de la red estaban ligados a una ubicación genómica común, sugiriendo un flujo causal potencial desde la variación genética en este locus a través del juego de transcritos de interacción a los fenotipos cerebrales y de comportamiento de un orden más alto. En la práctica, las asociaciones módulo-fenotipo con frecuencia están basadas en evidencia convergente de combinaciones de enfoques. Por ejemplo, recientemente se identificó a la fosfatasa ácida 1 (Acp1) como una importante determinante de variación genética en subpoblaciones de linfocito T en el panel de la cepa BXD, basándose en su correlación con los fenotipos suprayacentes, su posición dentro del QTL para el rasgo (relación CD4+:CD8+ en sangre periférica) y su membresía a un gran clique altamente enriquecido en funciones asociadas al ciclo celular.
Los enfoques basados en redes que son centrales a la genética de sistemas son también ideales para determinar mecanismos a través de los cuales las variables ambientales tales como los nutrimentos afectan al sistema a través de una población. El enfoque general descrito arriba es extensible a análisis diferenciales a través de los cuales las redes y relaciones que existen solamente bajo una condición específica pueden ser identificadas y el ‘concepto diferencial’ puede ser aplicado a niveles múltiples de la red. Por ejemplo, se han empleado los conceptos de correlación diferencial y análisis de red diferencial para identificar juegos de genes y centros clave (conocidos como ‘hubs’) dentro de dichas redes que fueron específicamente sensibles a un estresor ambiental (exposición a una dosis baja de radiación ionizante). La correlación diferencial resaltó una red de interacciones específicas a la radiación que estaban centradas en el hub del gen topoisomerasa 3a (Top3a), el cual es importante para la estabilidad genómica y la regulación del punto de control del ciclo celular después de la exposición a la radiación. Los mismos conceptos pueden ser usados para ensamblar redes de interacción específicas a nutrimentos o para comparar y contrastar la arquitectura a través de la cual los nutrimentos afectan diferencialmente la salud de machos y hembras o entre diferentes grupos étnicos dentro de una población.
Modelos basados en poblaciones para genética de sistemas
Los modelos basados en poblaciones son centrales a la genética de sistemas. El criterio principal es un juego de individuos o lineas endogámicas en las cuales cada individuo o linea consiste de su propio juego de combinaciones de alelos. Basándose en este criterio, un mapeo tradicional de población F2 es suficiente. Sin embargo, la limitación al usar este modelo radica en la necesidad de un extenso fenotipado y el hecho de que el mismo juego de individuos únicos no puede ser recreado. Las poblaciones de referencia genética superan esta limitación, dado que consisten en poblaciones de individuos que pueden ser reproducidos indefinidamente debido al hecho de que las cepas que componen la población son endogámicas. Dado que son genéticamente estables, aparte de la deriva genética aleatoria en el tiempo, los datos de estudios múltiples con la misma población pueden ser integrados como si fueran recolectados del mismo juego de ratones individuales.
Existen varias poblaciones de referencia genética en ratones, incluyendo el juego de cepas endogámicas estándar, centrales en la Mouse Phenome Database (Base de Datos del Fenoma de Ratón) y juegos de cepa RI creados entremezclando 2 genomas parentales y luego fijando las recombinaciones por endogamia. Las cepas endogámicas de ratón proporcionan un espectro de diversidad para la mayoría de los fenotipos. Sin embargo, muchas de las cepas comparten una historia de crianza traslapada y a nivel genómico con idénticas por descendencia a través de un gran porcentaje del genoma. Como resultado, estos loci son efectivamente puntos ciegos en términos del mapeo genético.
Los paneles de cepa RI están derivados de 2 genomas parentales, pero la naturaleza aleatoria de la recombinación meiótica crea la oportunidad de que ocurran nuevas combinaciones alélicas antes de la fijación por endogamia. Cada cepa individual representa un mosaico genético de los 2 genomas parentales originales. Sin embargo, si las 2 cepas parentales comparten grandes regiones de loci idénticos por descendencia, esas regiones permanecerán como puntos ciegos en las cepas endogámicas resultantes. El panel RI más grande fue creado de los genomas C57BL/6J y DBA/2J y consiste de 81 cepas BXD que han sido utilizadas para estudiar un amplio rango de fenotipos. El uso del juego de cepa BXD así como otros paneles de cepas RI por la genética de sistemas es facilitado por GeneNetwork, que es un recurso basado en Internet que alberga datos tanto de genotipo como de fenotipo de un buen número de poblaciones de referencia genética y una suite de herramientas entrelazadas de análisis que apoyan el mapeo QTL y correlaciones de rasgos a través de múltiples estudios.
Todos los paneles existentes de cepas RI en roedores fueron creados a partir de 2 genomas parentales y consisten a lo sumo de 81 cepas; tanto el juego limitado de alelos de entrada como el número de “individuos” dentro de los paneles limitan el poder para hacer asociaciones genéticas significativas, particularmente para combinaciones de alelos con efecto pequeño. La Collaborative Cross (Colaboración Cruzada o CC) fue propuesta inicialmente en la reunión, en Edimburgo, de la Conferencia Internacional sobre el Genoma de Ratón (IMGC, por sus siglas en inglés), en octubre de 2001, como una población de referencia genética que superaría tanto las limitaciones genéticas como estadísticas de los panales de cepa RI existentes. La CC fue concebida como una población compuesta de un número mucho mayor (1000 o más) de cepas RI creadas a partir de genomas parentales. Las 8 cepas parentales (A/J, C57BL/6J, 129S1/SvlmJ, NOD/ShiLtJ, NZO/HILtJ, CAST/EiJ, PWK/Ph y WSB/EiJ) fueron seleccionadas basándose en la diversidad genética pronosticada e incluyeron 3 cepas derivadas de poblaciones silvestres (CAST/EiJ, PWK/Ph y WSB/EiJ) así como cepas tendientes a la diabetes tipo 1 (NOD/ShiLtJ) y tipo 2 (NZO/HILtJ). Estas 8 cepas capturan al menos el 90% de la diversidad alélica conocida a lo largo del genoma de ratón.
La crianza de la CC comenzó simultáneamente en el Oak Ridge National Laboratory (ORNL, Estados Unidos), Tel Aviv University (Israel) y Western Australia Institute for Medical Research (Australia). La población estadounidense fue luego transferida a la University of North Carolina, Chapel Hill, en donde la endogamia sería completada y las lineas serán mantenidas y distribuidas para utilizarse por la comunidad de genética de sistemas. La diversidad fenotípica de la CC promete ser amplia, de acuerdo a lo esperado. Por ejemplo, las generaciones intermedias de las lineas CC incipientes fueron fenotipadas para adiposidad y otros rasgos a medida que progresaba la endogamia en ORNL; la adiposidad en machos y hembras de 59 lineas CC estaba en el rango de >18 veces en los machos y 44 veces en las hembras después de por lo menos 7 generaciones de endogamia.
Dado que las poblaciones de referencia genética son estables con el pasar del tiempo y el espacio, permiten el verdadero potencial de la genética de sistemas en que los datos de cualquier estudio que utilice la misma población pueden ser integrados, maximizando la naturaleza descubridora de la disciplina. Un grupo utilizó el panel BXD RI para identificar mecanismos de sensibilidad genética a los estresores ambientales. Al integrar datos del inmunofenotipo de sangre periférica de los estudios con los resultados de la infección con Chlamydia psittaci producidos por otro grupo de investigación que empleó las mismas cepas BXD, se descubrió una relación significativamente pronosticadora entre la relación de linfocitos T y B en los individuos sanos y la larga de patógeno en los individuos infectados. En ausencia de un conocimiento a priori, dichas relaciones probablemente permanecería sin descubrirse sin un marco de trabajo de genética de sistemas.
El mismo razonamiento es igualmente capaz de descubrir relaciones mecanísticas entre rasgos relevantes a la nutrición, tales como las redes traslapadas de interacciones que hacen a los individuos susceptibles de la obesidad inducida por dieta y la resistencia a la insulina. La obesidad es, de hecho, un modelo atractivo para el uso de genética de sistemas debido al papel establecido del tejido adiposo, mucho más allá de un depósito de almacenamiento energético, y el reconocimiento de que los cambios en la masa adiposa afectan muchas otras partes del sistema. La obesidad y el síndrome metabólico son posiblemente el par mejor establecido de condiciones comórbidas asociadas a la nutrición. Sin embargo, a pesar de esta bien establecida relación, se estima que hasta el 25% de los individuos obesos son metabólicamente saludables (un concepto que se sigue discutiendo en la comunidad científica). En contraste, existen grupos de individuos quienes son metabólicamente obesos a pesar de un fenotipo delgado. Desacoplar estas condiciones a nivel genético mientras se definen las rutas que llevan a cada desorden podría tanto identificar nuevas dianas terapéuticas como mejorar el entendimiento clínico del riesgo personalizado para los pacientes que se presentan con obesidad. A un nivel más amplio, la genética de sistemas proporcionaría un medio para descubrir las correlaciones genéticas y funcionales a través de las cuales la obesidad incrementa el riesgo para un rango de desordenes tan distintos como asma, psoriasis, enfermedad periodontal y varios cánceres.
Con motivo de los 10 años del inicio de la CC, las revistas ‘Genetics’ y ‘G3 – Genes, Genomes, Genetics’, que dependen de la Sociedad Estadounidense de Genética, publicaron secciones especiales, que incluyen algunos de los primeros resultados obtenidos del esfuerzo multinacional. Adicionalmente, la Universidad de Carolina del Norte tiene un sitio web con información relevante sobre el proyecto CC, las líneas disponibles y las herramientas de genética de sistemas para los investigadores e interesados en el proyecto.
Genética de sistemas para la investigación nutriológica
La genética de sistemas es un marco de trabajo ideal para la investigación en nutrición. Es ampliamente aceptado que los individuos difieren significativamente en su metabolismo de los nutrimentos. Los trabajos previos han proporcionado un ejemplo irresistible del empleo de genética de sistemas para descubrir los mecanismos para las diferencias en el metabolismo de un cruce F2 entre cepas puras de ratones resistentes a la diabetes y susceptibles a la diabetes. Los datos cuantitativos tanto metabolómicos como de micromatrices a partir de hígado fueron integrados con mapeo QTL para construir una red causal que medió diferencias heredables en el metabolismo de glutamato. Es importante que estos autores también validaron la relación de su red con los rasgos metabólicos asociados, demostrando que la disponibilidad de glutamato alteró los niveles de expresión de los genes en la red. A la larga, este nivel de entendimiento a través de una población soportaría la implementación de la nutrición personalizada. Este trabajo también resalta el importante tema de cómo validar que las redes descubiertas por la genética de sistemas son causales en el desarrollo de fenotipos. En uno de los casos, los autores manipularon los niveles de glutamato en un modelo de cultivo de hepatocito ex vivo para mostrar que los genes identificados en la red eran responsables de los niveles de glutamato. En algunos casos, la manipulación genética de genes individuales, tales como los genes hub centrales en la redes, puede ser suficiente para alterar el fenotipo asociado.
Otro grupo utilizó con éxito modelos ratón transgénicos y noqueados para probar que 8 genes (de 9 predichos) eran causales de obesidad en un cruce F2 entre cepas de ratones C57BL/6J y DBA/2J. Sin embargo, la redundancia funcional entre genes relacionados puede desalentar los resultados de manipular un gen individual. Adicionalmente, la mayoría de los rasgos de orden más alto son, por naturaleza, complejos, con muchos loci contribuyendo efectos modestos al fenotipo resultante. El CC podría proporcionar medios adicionales para probar predicciones de la genética de sistemas debido a su tamaño (unas mil lineas o más). Los modelos causales pueden ser desarrollados en un juego de cepas elegidas aleatoriamente y validados en un juego independiente de cepas.
En resumen, la genética de sistemas es una disciplina emergente que es ortogonal pero complementaria a los métodos tradicionales que enfatizan la función de genes o proteínas individuales. Mientras que apoya la prueba de hipótesis, también permite el descubrimiento de relaciones previamente insospechadas entre genes, proteínas, metabolitos, rutas bioquímicas y rasgos suprayacentes relativos a la salud y la enfermedad. A medida que las poblaciones de referencia se utilizan más ampliamente, las nuevas relaciones continuarán siendo descubiertas, arrojando nuevas hipótesis y modelos alternativos. El CC, en particular, deberá acelerar tanto la tasa de dichos desarrollos como la adopción de genética de sistemas por la comunidad nutriológica.