Organización, variación y expresión del genoma humano (I)

Termografia de cromosomas humanosParte 1 de 3

Un genoma es la secuencia completa de ácido desoxirribonucleico (DNA, por sus siglas en inglés), que contiene la información genética completa de un gameto, un individuo, una población o una especie. La palabra “genoma” se originó como una analogía con el término “cromosoma”, que se refería a las entidades físicas (visibles bajo el microscopio) que portan los genes de una célula a sus células hijas o de una generación a la siguiente.

Con la disponibilidad de la secuencia del genoma humano (International Human Genome Sequencing Consortium) y la determinación de la extensión de la variación del genoma humano, tanto dentro como entre poblaciones y dentro de los genomas individuales, una mayor conciencia de la amplia variación humana puede comenzar a ser generalmente aplicada a la exploración de las enfermedades humanas comunes.

 

Organización del genoma humano

El típico genoma humano consiste de aproximadamente 3,000 millones (3×109) pares base (bp, por sus siglas en inglés) de DNA, divididos entre los 24 tipos de cromosomas nucleares (22 autosomas más los cromosomas sexuales, X y Y) y los mucho menores cromosomas mitocondriales. En febrero de 2008, las características del genoma humano, de acuerdo a Ensembl v. 48, son:

♦  Largo del genoma humano (pares base): 3,253,037,807
♦  Número de genes codificadores de proteína conocidos: 21,541
♦  Densidad promedio de genes (genes/Mb –mega pares base o 106-): 6.6
♦  Número de genes RNA no codificadores (ncRNA): 4421
♦  Número de polimorfismos de un nucleótido (SNP): 13,022,900

El genoma puede ser representado y evaluado en diferentes formas, con distintos niveles de resolución y grados de sensibilidad, dependiendo de la necesidad clínica o de investigación, en donde cariotipo –clásico, espectral o virtual-, matrices o arrays, esquemas y secuencias de DNA, son los más importantes y utilizados.

Los cromosomas individuales se estudian mejor en metafase de las células en división, y el cariotipo de cromosomas en pacientes ha sido un procedimiento de laboratorio clínico valioso por décadas; varias técnicas analíticas basadas en teñido o hibridización tienen la habilidad para detectar anormalidades cromosómicas que van desde un cromosoma entero extra o faltante (aneuploide)  hasta translocaciones o rearreglos que involucran solo una porción de uno o más cromosomas, eliminaciones o duplicaciones que involucran secciones tan pequeñas como una megabase (Mb, 106 pares base) de DNA.

Tecnologías más recientes que incluyen juegos traslapados de segmentos aislados del genoma en matrices (o arrays, como también se les conoce) en portaobjetos, han provisto  resolución y precisión ampliamente mejoradas capaces de evaluar de una forma rápida y clara la dosis (número de copias de un gen presentes) apropiada (y en algunos casos la organización) de los segmentos correspondientes de DNA dentro del genoma de una persona.

La máxima resolución proviene del análisis directo de secuencia, y varias nuevas tecnologías han reducido el costo y mejorado el resultado de la secuenciación de genomas individuales, facilitando las comparaciones con la secuencia del genoma humano de referencia y capacitando la resecuenciación médica de muestras de pacientes para buscar nuevas variantes o mutaciones que podrían tener importancia clínica.

Mientras que el genoma humano contiene un estimado de 20,000 a 25,000 genes, los segmentos codificadores de estos genes comprenden menos del 2% del genoma. La mayoría del genoma, por tanto, consiste de DNA que se ubica entre los genes, alejado de estos o en vastas áreas que abarcan varias megabases que parecen no contener genes (conocidos como desiertos de genes). El procedimiento para la identificación de genes y anotación del genoma (proceso de ligar información biológica a las secuencias) es un trabajo en proceso y a pesar de la aparente robustez de los estimados recientes, es concebible que existan algunos genes, incluyendo los clínicamente relevantes, que no se hayan identificado o que muestren características que no reconocemos como asociadas con genes.

Un máximo de 5% del genoma consiste de DNA que ha estado bien conservado a lo largo de la evolución, una indicación de una función importante. Estas y otras consideraciones han llevado al estimado de que aproximadamente el 20% del genoma es de importancia funcional. No obstante, el concepto de que la vasta mayoría del genoma consiste de secciones de DNA que no es génico, sin función obvia y de relevancia clínica incierta, permanece cierto.

Además de estar relativamente esparcidos en el genoma, los genes están distribuidos no muy al azar a lo largo de los diferentes cromosomas humanos. Algunos cromosomas son relativamente ricos en genes, mientras que otros son algo pobres en genes, variando desde un punto superior de unos 22 genes/Mb hasta un punto inferior de unos 3 genes/Mb (excluyendo el cromosoma Y y el cromosoma mitocondrial). Aun dentro de un cromosoma los genes tienden a agruparse en ciertas regiones o en bandas particulares, un punto de claro significado clínico cuando se evalúa la integridad,  dosis o arreglo del genoma en diferentes muestras.

Hay varios tipos de genes en el genoma humano. La mayoría de ellos codifican para proteínas y son transcritos en RNAs mensajeros (mRNAs) que son finalmente traducidos en sus proteínas respectivas; sus productos comprenden las enzimas, proteínas estructurales, receptores y proteínas reguladoras que se encuentran en varios tipos de células y tejidos humanos. Sin embargo, hay genes adicionales cuyo producto funcional parece ser el RNA en sí. Estos llamados RNAs no codificadores (ncRNAs) tienen un rango de funciones en la célula, aunque no se ha identificado la función de algunos de ellos. Pero los genes cuyos transcriptos forman la colección de ncRNAs representan aproximadamente un sexto de todos los genes humanos identificados.

Algunos de los tipos de ncRNA juegan papeles ampliamente genéricos en la infraestructura celular, incluyendo los RNAs de transferencia (tRNAs) y los RNAs ribosomales (rRNAs) involucrados en la traducción de mRNAs en los ribosomas, RNAs espliceosomales involucrados en el control del empalme de RNA, y los RNAs nucleolares pequeños (snoRNAs) involucrados en la modificaciones de rRNAs. Otros ncRNAs juegan papeles en la regulación de genes, por ejemplo, en el silenciado epigenético de genes.

Una clase de RNAs pequeños de importancia creciente son los microRNAs (miRNAs), ncRNAs de solamente unas 22 bases de largo, que suprimen la traducción de genes diana (o genes objetivo, como también se les conoce) al unirse con los mRNAs respectivos a dichos genes, regulando así la producción de proteína de los transcriptos diana. Algunos 255 genes micro RNA fueron identificados en el genoma humano inicialmente, aunque se cree que el número total de dichos genes es cercano a mil. Algunos están evolutivamente conservados, mientras que otros parecen ser de origen bastante reciente durante la evolución de los primates, lo que dificulta la capacidad para determinar el número preciso e identidad de los genes humanos.

Los microRNAs han mostrado regular a la baja cientos de mRNAs cada uno, con diferentes combinaciones de RNAs diana en diferentes tejidos; combinados, se cree que los microRNAs controlan la actividad de hasta el 30% de los genes codificadores de proteínas en el genoma.

Aunque esta es un área que avanza rápido dentro de la biología del genoma, varios microRNAs han estado implicados en varias enfermedades humanas, incluyendo cáncer, desórdenes del desarrollo y enfermedades del corazón.

El hecho de que la distribución de los genes en el genoma no es al azar, tanto dentro como entre cromosomas, es en parte el reflejo de la distribución de diferentes tipos de secuencia de DNA, pues el genoma está particionado en dominios que se extienden por cientos de kiloparesbase a megabases, reflejando una variación a gran escala en el contenido G+C (guanina + citosina) del DNA. Estas llamadas isocoras se han conocido por décadas y a un nivel muy grueso, imitan el patrón de bandas teñidas de claro y obscuro que se observan en los cromosomas en metafase.

Mientras que la fuerza detrás de la evolución de las isocoras no está clara, estas influencian el contenido de G+C en los genes contenidos dentro de ellas (y, por virtud del código genético, por tanto, la composición de aminoácidos de las proteínas codificadas), los patrones de mutación y polimorfismo detectados, así como la naturaleza de varias familias de DNA repetido que residen ahí. Aún más impactante resulta el que los diferentes dominios de isocoras contienen grupos de genes que son expresados fuerte o débilmente expresados en una manera coordinada en diferentes tejidos.

Así, las isocoras reflejan tanto la organización funcional como estructural del genoma.

En general, solamente la mitad de la longitud total del genoma consiste del llamado DNA único o de copia sencilla, cuya secuencia se representa solamente una vez o cuando mucho algunas pocas veces. El resto del genoma consiste de varias clases de DNA repetitivo e incluye DNA cuya secuencia es repetida, tanto de manera perfecta o con alguna variación, cientos y hasta millones de veces en el genoma.

Se reconocen varias categorías de DNA repetitivo. Las secuencias repetidas en grupo constituyen un estimado de 10-15% del genoma y consisten en arreglos (arrays) de varias repeticiones cortas organizadas en tándem en una manera cabeza-a-cola. Dichos arrays se pueden extender varios Mb o más en longitud y constituyen un porcentaje importante del contenido de DNA en los cromosomas humanos individuales; sobresale en este aspecto el cromosoma específico masculino (cromosoma Y) en donde más de la mitad consiste de dichas familias de DNA repetidas.

Otras familias de repetición en tándem están basadas en repeticiones básicas algo más largas. Por ejemplo, la familia α-satélite de DNA está compuesta de arreglos en tándem de diferentes copias de una unidad de unos 171 bp, encontrada en el centrómero de cada cromosoma humano, el cual es crítico para la segregación apropiada de los cromosomas durante la división celular.

Otra familia altamente significativa de repeticiones se encuentra en las puntas de los cromosomas, los telómeros. Mientras que las repeticiones en los telómeros funcionales consisten de extensiones relativamente cortas de perfectas repeticiones (TTAGGG)n, diferentes regiones subteloméricas (próximas a las repeticiones del telómero) comparten patrones de homología con otros subtelómeros alrededor del genoma que crean puntos clínicamente relevantes de recombinación intercromosómica.

Otros tipos importantes de DNA repetitivo en el genoma consisten de secuencias relacionadas, que están dispersadas a lo largo del genoma, más que localizadas. Dentro de los elementos repetitivos dispersados mejor estudiados están los elementos nucleares intercalados cortos (SINEs). La familia más importante de éstos contiene repeticiones de unos 300 bp de largo y son reconociblemente relacionadas entre sí, aunque no son idénticas en la secuencia de DNA. En total, los miembros de esta familia constituyen al menos el 10% del DNA humano, aunque pueden constituir un porcentaje mucho mayor del DNA en algunas isocoras.

Una segunda familia importante de DNA repetitivo disperso se llamada la familia LINE (elemento nuclear disperso largo), cuyos miembros varían en tamaño hasta un máximo de 6 kp (kiloparesbase) y constituyen alrededor del 20% del genoma.

Las familias de repeticiones dispersas a lo largo del genoma son claramente de importancia médica. Tanto las secuencias SINE (elemento nuclear disperso corto) como las LINE han sido implicadas como causa de mutaciones en enfermedades genéticas. Tan solo unas cuantas copias de estas familias generan copias de si mismas que pueden integrarse en cualquier lugar del genoma, ocasionalmente causando la inactivación insercional de un gen medicamente importante. La frecuencia de dichos eventos que provocan una enfermedad genética en humanos se desconoce casi por completo, pero se ha sugerido que puede ser responsable de hasta una en 500 mutaciones. Adicionalmente, los eventos aberrantes de recombinación entre diferentes repeticiones LINE o SINE pueden también ser la causa de mutación en algunas enfermedades genéticas.

Una subclase importante de DNA repetitivo, distinta de las grandes familias mencionadas, incluye bloques de diferentes secuencias (sin definir una familia particular de secuencias) que están presentes en múltiples copias, frecuentemente con una conservación de secuencia extraordinariamente alta, en muchas ubicaciones diferentes alrededor del genoma. Las duplicaciones que involucran segmentos substanciales de un cromosoma, llamadas duplicaciones segmentales, constituyen por lo menos el 5% del genoma.

Cuando las regiones duplicadas contienen genes, los rearreglos genómicos pueden resultar en la eliminación de la región (y los genes) entre las copias y por tanto dar lugar a la enfermedad. Adicionalmente, los rearreglos entre segmentos duplicados son una fuente de variación significativa entre individuos en el número de copias de estas secuencias de DNA.

En la segunda parte de este documento, se presentan las variaciones que puede experimentar el genoma humano, y en la tercera parte se hace una breve presentación sobre la expresión del genoma.

Organizacion del genoma humanoSubir