Organización, variación y expresión del genoma humano (II)

Gameto masculino fecundando al gameto femeninoParte 2 de 3

Variación en el genoma humano

Con la elaboración del mapa completo de la secuencia del genoma humano de referencia, la atención se ha centrado en el descubrimiento y catalogación de la variación en dicha secuencia entre diferentes individuos, incluyendo tanto personas sanas como aquellas con varias enfermedades, y entre diferentes poblaciones.

Se ha estimado que hay unas 10 a 15 millones de variantes comunes de secuencia que poseen la frecuencia suficiente (frecuencia menor de alelo mayor a 5%) en una o más poblaciones para ser consideradas polimórficas en nuestra especie. Adicionalmente, hay incontables variantes muy raras, muchas de las cuales probablemente existen en uno o en unos cuantos individuos. De hecho, dado el número de individuos en nuestra especia, esencialmente cada uno de los pares base en el genoma humano puede variar en alguien en algún momento alrededor del globo; es por esta razón que la secuencia original de genoma se considera una secuencia “de referencia”, derivada del consenso de un número limitado de genomas individuales cuya secuenciación fue parte del Proyecto Genoma Humano, pero que no corresponde ni es idéntica a un genoma individual.

Los estimados tempranos eran que dos individuos seleccionados al azar tenían secuencias que eran 99.9% idénticas, o puesto de otro modo, que un genoma individual sería heterocigoto en aproximadamente 3-5 millones de posiciones, con diferentes bases (por ejemplo, una T o una G) en las copias heredadas maternalmente o paternalmente de dicha posición particular de secuencia. La mayoría de estas diferencias involucran simplemente una unidad en el código de DNA y se conocen como polimorfismos de un nucleótido (SNPs o snips).

La variación remanente consiste de inserciones o eliminaciones (in/del, como se les conoce también) de extensiones cortas (generalmente) de secuencia, variación en el número de copias de elementos repetidos o inversiones en el orden de secuencias en un locus particular en el genoma.

La cantidad total de variación in/del es mayor que lo anticipado originalmente y se acerca al 0.5%, no al 0.1%, entre dos individuos seleccionados al azar.

Cualquiera y todos los tipos de variación pueden tener influencia en una enfermedad y por tanto debe ser considerado en los esfuerzos por entender la contribución de la genérica a la salud humana.

Aunque el estimado global de heterocigosidad de SNP es aproximadamente de 1 n 1,500 bp, hay mucha mayor variación en las secuencias no codificadoras que en los segmentos codificadores de genes, reflejando una fuerte presión selectiva durante la evolución en contra de ciertos tipos de cambio en las secuencias de gen. La combinación de alelos particulares a lo largo de los cromosomas tampoco es al azar, con combinaciones particulares (haplotipos) que prevalecen en distancias cortas, debido a la relativa ineficiencia de la recombinación meiotica para separar alelos en lugares que están físicamente cercanos.

Los patrones resultantes de desequilibrio de ligamiento (linkage) son relevantes para diseñar estrategias para examinar la variación genética en todo el genoma, tanto como materia práctica (reducir el número de SNPs necesarios que deben probarse para revelar los patrones subyacentes de variación) como para evaluar la importancia funcional potencial de un alelo SNP particular.

En los últimos años, varios estudios importantes han identificado una prevalencia previamente no anticipada de variantes estructurales en el genoma, que colectivamente comprenden más variación en la secuencia del genoma que los SNPs. El tipo más común de variación estructural involucra cambios en el número local de copias de secuencias (incluyendo genes) en el genoma, y estas se conocen generalmente como variantes de número de copia (CNVs).

Varias plataformas tecnológicas diferentes se utilizan actualmente para detectar CNVs, incluyendo arrays y secuenciación directa del genoma. Como muchas CNVs comprenden genes (incluyendo genes microRNA) y como un número significativo de nuevas CNVs se descubren con cada nueva población estudiada, hay un esfuerzo en camino para catalogar las CNVs del genoma humano a nivel mundial y para asociar estas con fenotipos clínicos. Aunque la mayoría de la variación de este tipo es heredada, algunas CNVs ocurren de novo o aun en células somáticas; en estos casos, una persona tendrá diferentes longitudes repetidas que las de cualquiera de sus padres.

Los métodos basados en matrices (arrays) han ganado rápida aceptación para evaluar la asociación de CNVs heredadas o de novo con el retraso mental y otros desórdenes del desarrollo. Es de considerable interés evaluar el papel de CNVs y otras variantes estructurales, incluyendo eliminaciones e inversiones, en la etiología de enfermedades o rasgos más comunes y complejos de la vida adulta, incluyendo condiciones neurológicas y psiquiátricas así como rasgos farmacogenéticos.

El inventario actual más extenso de la cantidad y tipo de variación a esperar en un genoma dado proviene del análisis directo de la secuencia del genoma diploide de un individuo masculino, denominado HuRef. Se describieron más de 4 millones de variantes, ocupando unas 12.3 Mb de DNA.  Aproximadamente 20 Mb de “nueva” secuencia  que no había estado previamente disponible como parte de la secuencia humana de referencia, fue determinada posteriormente, reflejando en parte la naturaleza sin terminal de la secuencia del genoma humano y en parte los patrones particulares de secuencias insertadas o eliminadas que distinguen los diferentes genomas.

Varios cientos de miles in/del se encontraron también en este único genoma. Adicionalmente, varios cientos de CNVs fueron detectados, que se traslaparon en por lo menos genes con buena anotación previa. Aunque la mayoría de estas variantes era idéntica a aquellas encontradas en otros individuos en la población, otras son lo que se ha llamado mutaciones “privadas”, específicas para HuRef y su familia.

En el genoma HuRef, al menos 850 genes conocidos por estar involucrados en enfermedades hereditarias, contuvieron por lo menos una variante heterocigosa y más de 300 de ellos contuvieron al menos un SNP no sinónimo (un SNP que, en virtud del código genético, se predice cambiará el aminoácido codificado). Por supuesto, genes adicionales pueden también impactar la enfermedad y, en general, más de 400 genes en el genoma HuRef contienen uno o más SNP no sinónimo. Por tanto, al menos 17% y tal vez tanto como el 44% de los genes en el genoma HuRef fueron heterocigotos y podrían codificar proteínas que difieren en sus secuencias de aminoácidos y/o son producidas en cantidades diferentes.

Estos estimados subrayan el impacto de la variación de gen y genoma en la biología humana y en la medicina. También proporcionan una validación notable de los estimados originales hace décadas de la proporción de genes que son heterocigotos en un individuo dado.

Es claro que todavía nos encontramos en la etapa de descubrimiento, pues relativamente pocos genomas o poblaciones han sido valorados a la fecha; sin duda, millones de SNPs adicionales permanecen sin descubrir, así como muchas in/dels, inversiones y CNVs, una porción de las cuales podría involucrar genes y otras secuencias de relevancia directa a la medicina. Por tanto, el tema de “qué es normal”, un concepto esencial en la medicina clínica, permanece como una pregunta abierta en lo que se refiere al genoma humano.

Se estima que la mayoría de la heterocigosidad en el genoma humano se debe a variantes con una frecuencia de alelo menor de al menos 1%. Aprovechando los importantes desarrollos tecnológicos que han incrementado en gran medida el rendimiento del genotipado en una escala de todo el genoma, varios proyectos a gran escala han validado estos estimados al reunir información genotípica de millones de SNPs a nivel mundial. La mayoría de estos estudios, sin embargo, han estado restringidos a un pequeño número de poblaciones con origen del norte de Europa, África y Asia para la detección de snips.

De estos y otros estudios previos que examinaron más poblaciones pero con muchas menos variantes, se ha concluido que aproximadamente del 85% al 90% de la variación encontrada en nuestra especia es compartida entre los diferentes grupos poblacionales; una relativa minoría de variantes, sin embargo, son específicas para genomas de una población particular o se encuentran elevadamente enriquecidas o empobrecidas en dicha población.

Es posible utilizar variantes específicas para una población, a fin de obtener información en el origen geográfico de un genoma o de segmentos particulares dentro de un genoma. Dados los muchos millones de snips disponibles, hay por lo menos cientos de miles de SNPs que son informativos para dichos estudios (conocidos como marcadores informativos de ascendencia (AIMs, por sus siglas en inglés).

Esto ha llevado a dos aplicaciones relacionadas, pero distintas, para dichos marcadores. La primera es el uso de mapeo de mezcla, rastreando la localización de SNPs particulares asociados con enfermedad en poblaciones de pacientes cuyos genomas son una mezcla de por lo menos dos poblaciones originales (por ejemplo, negros o latinos). Dicho acercamiento se ha utilizado para mapear genes asociados con varios fenotipos cuya frecuencia difiere marcadamente entre diferentes grupos poblacionales, incluyendo el cáncer de próstata, pigmentación de la piel y cuenta de linfocitos.

El segundo uso para los AIMs es para la prueba de ascendencia no relacionada a estudios de enfermedad. Aunque las motivaciones detrás de dichos estudios y los usos potenciales (y posiblemente abusos) de información biogeográfica son variados, la disponibilidad comercial e interpretación de las pruebas de ascendencia genética es controversial.

No obstante, la disponibilidad de dicha información como un subproducto intencional o involuntario del análisis a nivel de todo el genoma es inevitable, y tanto los consumidores/pacientes como los profesionales de la salud deben estar al tanto de ello, a medida que la variación genética es explorada en el contexto de genomas individuales.

En la tercera y última parte se presenta una breve reflexión sobre la expresión del genoma humano.

Variación en el genoma humanoSubir