uno de los primeros intentos de estimar el número de genes en el genoma humano involucró a genetistas borrachos, un bar en Cold Spring Harbor, Nueva York, y suposiciones puras.,
eso fue en 2000, cuando un borrador de la secuencia del genoma humano todavía estaba en las obras; los genetistas estaban llevando a cabo un sorteo sobre cuántos genes tienen los humanos, y las apuestas oscilaban entre decenas de miles y cientos de miles. Casi dos décadas más tarde, los científicos armados con datos reales todavía no pueden ponerse de acuerdo sobre el número, una brecha de conocimiento que, según ellos, dificulta los esfuerzos para detectar mutaciones relacionadas con la enfermedad.
El último intento de tapar esa brecha utiliza datos de cientos de muestras de tejido humano y se publicó en el servidor de preprints de BioRxiv el 29 de Mayo1., Incluye casi 5,000 genes que no se han detectado previamente — entre ellos casi 1,200 que contienen instrucciones para producir proteínas. Y la cifra total de más de 21.000 genes codificadores de proteínas es un salto sustancial con respecto a las estimaciones anteriores, que situaban la cifra en alrededor de 20.000.
pero muchos genetistas aún no están convencidos de que todos los genes recientemente propuestos resistirán un escrutinio minucioso. Sus críticas subrayan lo difícil que es identificar nuevos genes, o incluso definir lo que es un gen.,
«La gente ha estado trabajando duro en esto durante 20 años, y todavía no tenemos la respuesta», dice Steven Salzberg, un biólogo computacional de la Universidad Johns Hopkins en Baltimore, Maryland, cuyo equipo produjo el último recuento.
difícil de precisar
en el año 2000, con la comunidad genómica bullendo sobre la cuestión de cuántos genes humanos se encontrarían, Ewan Birney lanzó el concurso GeneSweep., Birney, ahora co-director del Instituto Europeo de Bioinformática (EBI) en Hinxton, Reino Unido, tomó las primeras apuestas en un bar durante una reunión anual de genética, y el concurso finalmente atrajo a más de 1.000 entradas y un premio mayor de US jackpot 3.000. Las apuestas sobre el número de genes oscilaron entre más de 312.000 y poco menos de 26.000, con un promedio de alrededor de 40.000. En estos días, el lapso de las estimaciones se ha reducido-con la mayoría ahora entre 19,000 y 22,000-pero todavía hay desacuerdo (ver ‘Gene Tally’).
el recuento de genes puede variar en función de los datos analizados, las herramientas utilizadas y los criterios para eliminar los falsos positivos. El último recuento utilizó un conjunto de datos más grande y diferentes métodos computacionales de los esfuerzos anteriores, así como criterios más amplios para definir un gen.
El equipo de Salzberg utilizó datos del proyecto Genotype-Tissue Expression (Gtex), que secuenció el ARN de más de 30 tejidos diferentes tomados de varios cientos de cadáveres. El ARN es el intermediario entre el ADN y las proteínas., Los investigadores querían identificar los genes que codifican una proteína y aquellos que no lo hacen, pero aún cumplen un papel importante en las células. Así que ensamblaron los 900 mil millones de pequeños fragmentos de ARN de GTEx y los alinearon con el genoma humano.
el hecho de que un tramo de ADN se exprese como ARN, sin embargo, no significa necesariamente que sea un gen. Así que el equipo intentó filtrar el ruido usando una variedad de criterios., Por ejemplo, compararon sus resultados con genomas de otras especies, razonando que las secuencias compartidas por criaturas distantes probablemente han sido preservadas por la evolución porque sirven a un propósito útil, y por lo tanto es probable que sean genes.
el equipo quedó con 21.306 genes codificadores de proteínas y 21.856 genes no codificadores, muchos más de los que están incluidos en las dos bases de datos de genes humanos más utilizadas. El conjunto de genes GENCODE, mantenido por el EBI, incluye 19,901 genes codificadores de proteínas y 15,779 genes no codificadores., RefSeq, una base de datos administrada por el Centro Nacional de Información Biotecnológica de los Estados Unidos (NCBI), enumera 20.203 genes codificadores de proteínas y 17.871 genes no codificadores.
Kim Pruitt, investigador del genoma en el NCBI en Bethesda, Maryland, y ex jefe de RefSeq, dice que la diferencia se debe probablemente en parte al volumen de datos que analizó el equipo de Salzberg. Y hay otra gran diferencia. Tanto GENCODE como RefSeq dependen de la curación manual: una persona revisa la evidencia de cada gen y hace una determinación final. El grupo de Salzberg se basó únicamente en programas informáticos para tamizar los datos.,
«si a la gente le gusta nuestra lista de genes, tal vez dentro de un par de años seremos el árbitro de los genes humanos», dice Salzberg.
Tricky tally
pero muchos científicos dicen que necesitan más evidencia para estar convencidos de que la lista es precisa. Adam Frankish, un biólogo computacional en el EBI que coordina la anotación manual de GENCODE, dice que él y su grupo han escaneado alrededor de 100 de los genes codificadores de proteínas identificados por el equipo de Salzberg. Según su evaluación, solo uno de ellos parece ser un verdadero gen codificador de proteínas.,
y el equipo de Pruitt analizaron alrededor de una docena de los nuevos genes codificadores de proteínas del grupo Salzberg, pero no encontraron ninguno que cumpliera con los criterios de RefSeq. Algunos se superponían con regiones del genoma que parecen pertenecer a Retrovirus que invadieron los genomas de nuestros antepasados; otros pertenecen a otros estiramientos repetitivos, que rara vez se traducen en proteínas.
pero Salzberg dice que algunas secuencias repetitivas pueden considerarse genes. Un ejemplo es ERV3-1, que aparece en RefSeq y codifica una proteína que está sobreexpresada en el cáncer colorrectal., Salzberg también reconoce que los nuevos genes en la lista de su equipo requerirán la validación de su equipo y otros.
los esfuerzos de conteo más confusos son la definición imprecisa y cambiante de un gen. Los biólogos solían ver los genes como secuencias que codifican proteínas, pero luego quedó claro que algunas moléculas de ARN no codificantes tienen papeles importantes en las células. Juzgar cuáles son importantes — y deberían considerarse genes — es controvertido, y podría explicar algunas de las discrepancias entre el recuento de Salzberg y otros.,
aún así, es probable que al menos algunos de los genes identificados por el grupo de Salzberg resulten válidos, dice Emmanouil Dermitzakis, genetista de la Universidad de Ginebra en Suiza, que co-preside el proyecto GTEx. No le sorprende que el recuento de genes codificadores de proteínas del equipo sea un aumento del 5% en los recuentos anteriores, dado el tamaño gigantesco del conjunto de datos GTEx.
tener un recuento exacto de todos los genes humanos es importante para los esfuerzos por descubrir los vínculos entre los genes y la enfermedad., A menudo se ignoran genes incontables, incluso si contienen una mutación que causa una enfermedad, dice Salzberg. Pero agregar genes apresuradamente a la lista maestra también puede plantear riesgos, dice Frankish. Un gen que resulta ser incorrecto puede desviar la atención de los genetistas lejos del problema real.
aún así, las inconsistencias en el número de genes de una base de datos a otra son problemáticas para los investigadores, dice Pruitt. «La gente quiere una respuesta», añade, » pero la biología es compleja.”