Uma das primeiras tentativas para estimar o número de genes no genoma humano envolvido embriagado geneticistas, um bar em Cold Spring Harbor, de Nova York, e pura conjectura.,
isso foi em 2000, quando um rascunho de sequência do genoma humano ainda estava em obras; geneticistas estavam executando um varredura sobre quantos genes humanos têm, e apostas variaram de dezenas de milhares a centenas de milhares. Quase duas décadas depois, cientistas armados com dados reais ainda não conseguem concordar com o número — uma lacuna de conhecimento que eles dizem que dificulta os esforços para detectar mutações relacionadas com a doença.
The latest attempt to plug that gap uses data from hundreds of human tissue samples and was posted on the BioRxiv preprint server on 29 May1., Inclui quase 5.000 genes que não foram detectados anteriormente – entre eles cerca de 1.200 que transportam instruções para a produção de proteínas. E a contagem geral de mais de 21.000 genes codificadores de proteínas é um salto substancial em relação às estimativas anteriores, o que colocou a cifra em cerca de 20.000.
mas muitos geneticistas ainda não estão convencidos de que todos os genes recém-propostos se levantarão para um exame minucioso. Suas críticas enfatizam o quão difícil é identificar novos genes, ou até mesmo definir o que é um gene.,
“As pessoas têm trabalhado duro nisso por 20 anos, e ainda não temos a resposta”, diz Steven Salzberg, um biólogo computacional da Universidade Johns Hopkins em Baltimore, Maryland, cuja equipe produziu a última contagem.
difícil de identificar
em 2000, com a comunidade genômica abuzz sobre a questão de quantos genes humanos seriam encontrados, Ewan Birney lançou o concurso GeneSweep., Birney, agora co-diretor do Instituto Europeu de Bioinformática (EBI) em Hinxton, Reino Unido, fez as primeiras apostas em um bar durante uma reunião anual de genética, e o concurso eventualmente atraiu mais de 1.000 entradas e um jackpot de US$3.000. As apostas sobre o número de genes variaram de mais de 312.000 a pouco menos de 26.000, com uma média de cerca de 40.000. Hoje em dia, o período de estimativas diminuiu — com a maioria agora entre 19.000 e 22.000 — mas ainda há desacordo (ver “Contagem genética”).
a contagem de genes pode variar dependendo dos dados em análise, das ferramentas utilizadas e dos critérios para eliminar falsos positivos. A contagem mais recente usou um conjunto de dados maior e diferentes métodos computacionais de esforços anteriores, bem como critérios mais amplos para definir um gene. a equipa de Salzberg utilizou dados do projecto genótipo-Tissue Expression (Gtex), que sequenciou o ARN de mais de 30 tecidos diferentes retirados de várias centenas de cadáveres. O RNA é o intermediário entre o ADN e as proteínas., Os pesquisadores queriam identificar genes que codificam uma proteína e aqueles que não, mas ainda servem um papel importante nas células. Então eles montaram os 900 bilhões de pequenos trechos de RNA da GTEx e alinharam-nos com o genoma humano.
apenas porque um trecho do DNA é expresso como RNA, no entanto, não significa necessariamente que é um gene. Então a equipe tentou filtrar o ruído usando uma variedade de critérios., Por exemplo, eles compararam seus resultados com genomas de outras espécies, argumentando que sequências compartilhadas por criaturas distantes relacionadas provavelmente foram preservadas pela evolução porque servem a um propósito útil, e por isso são susceptíveis de serem genes.
a equipe foi deixada com 21.306 genes codificadores de proteínas e 21.856 genes não codificadores-muitos mais do que estão incluídos nas duas bases de dados de genes humanos mais amplamente utilizadas. O conjunto de genes GENCODE, mantido pelo EBI, inclui 19.901 genes codificadores de proteínas e 15.779 genes não codificadores., RefSeq, um banco de dados gerido pelo US National Center for Biotechnology Information (NCBI), lista 20.203 genes codificadores de proteínas e 17.871 genes não codificadores. Kim Pruitt, pesquisador do genoma no NCBI em Bethesda, Maryland, e ex-chefe do RefSeq, diz que a diferença deve-se provavelmente em parte ao volume de dados que a equipe de Salzberg analisou. E há outra grande diferença. Tanto GENCODE quanto RefSeq dependem da Curação manual-uma pessoa analisa a evidência para cada gene e faz uma determinação final. O grupo Salzberg baseou-se exclusivamente em programas informáticos para filtrar os dados., “se as pessoas gostarem da nossa lista de genes, talvez daqui a dois anos seremos o árbitro dos genes humanos”, diz Salzberg.
ontagem complicada
mas muitos cientistas dizem que precisam de mais provas para se convencerem de que a lista é precisa. Adam Frankish, um biólogo computacional da EBI que coordena a anotação manual de GENCODE, diz que ele e seu grupo digitalizaram cerca de 100 dos genes codificadores de proteínas identificados pela equipe de Salzberg. Pela sua avaliação, Apenas um desses parece ser um verdadeiro gene que codifica proteínas.,
E a equipe de Pruitt analisaram cerca de uma dúzia dos novos genes codificadores de proteínas do Grupo Salzberg, mas não encontraram nenhum que atendesse aos critérios de RefSeq. Alguns sobrepuseram-se a regiões do genoma que parecem pertencer a retrovírus que invadiram os genomas dos nossos antepassados; outros pertencem a outros períodos repetitivos, que raramente são traduzidos em proteínas. mas Salzberg diz que algumas sequências repetitivas podem ser consideradas genes. Um exemplo é o ERV3-1, que aparece no RefSeq e codifica uma proteína que é sobreexpressada no câncer colorectal., Salzberg também reconhece que os novos genes na lista de sua equipe necessitarão de validação por sua equipe e outros. o esforço de contagem adicional confuso é a definição imprecisa e variável de um gene. Biólogos costumavam ver genes como sequências que codificam proteínas, mas então tornou-se claro que algumas moléculas de RNA não codificantes têm papéis importantes nas células. Julgar quais são importantes — e devem ser considerados genes-é controverso, e poderia explicar algumas das discrepâncias entre a contagem de Salzberg e outras.,
Ainda assim, é provável que pelo menos alguns dos genes identificados por Salzberg do grupo vai passar a ser válido, diz Emmanouil Dermitzakis, um geneticista da Universidade de Genebra, na Suíça, que co-preside a GTEx projeto. Ele não está surpreso que a contagem da equipe para genes codificadores de proteínas é um aumento de 5% em anteriores tallies, dado o tamanho gargantuano do conjunto de dados GTEx.
ter uma contagem precisa de todos os genes humanos é importante para os esforços para descobrir ligações entre genes e doença., Genes não contados são muitas vezes ignorados, mesmo que contenham uma mutação causadora de doenças, diz Salzberg. Mas, apressadamente, adicionar genes à lista principal pode representar riscos, também, diz Frankish. Um gene que se revela incorrecto pode desviar a atenção dos geneticistas do verdadeiro problema. ainda assim, as inconsistências no número de genes de banco de dados a banco de dados são problemáticas para os pesquisadores, diz Pruitt. “As pessoas querem uma resposta”, acrescenta, ” mas a biologia é complexa.”