Una dintre primele încercări de a estima numărul de gene în genomul uman implicat cherchelit geneticieni, un bar în Cold Spring Harbor, New York, și doar presupuneri.,
asta a fost în 2000, când un proiect de secvență a genomului uman era încă în lucru; geneticienii făceau o tombolă cu privire la câte gene au oamenii, iar pariurile variau de la zeci de mii la sute de mii. Aproape două decenii mai târziu, oamenii de știință înarmați cu date reale încă nu pot fi de acord asupra numărului — un decalaj de cunoștințe despre care spun că împiedică eforturile de a identifica mutațiile legate de boală. cea mai recentă încercare de a conecta acest decalaj folosește date de la sute de probe de țesut uman și a fost postată pe serverul de preprint BioRxiv pe 29 Mai1., Acesta include aproape 5.000 de gene care nu au fost observate anterior — dintre care aproape 1.200 care poartă instrucțiuni pentru producerea proteinelor. Și numărul total de peste 21.000 de gene care codifică proteinele este un salt substanțial față de estimările anterioare, care au pus cifra la aproximativ 20.000.dar mulți geneticieni nu sunt încă convinși că toate genele nou propuse se vor ridica la o examinare atentă. Criticile lor subliniază cât de dificil este să identifici noi gene sau chiar să definești ce este o genă.,
„oamenii lucrează din greu la asta de 20 de ani și încă nu avem răspunsul”, spune Steven Salzberg, biolog computațional la Universitatea Johns Hopkins din Baltimore, Maryland, a cărui echipă a produs ultimul număr.în 2000, cu comunitatea genomica abuzz peste problema cât de multe gene umane ar fi găsit, Ewan Birney a lansat concursul GeneSweep., Birney, acum co-director al Institutului European de Bioinformatică (EBI) din Hinxton, Marea Britanie, a luat primele pariuri la un bar în timpul unei întâlniri anuale de genetică, iar concursul a atras în cele din urmă peste 1,000 de intrări și un jackpot de 3,000 USD. Pariurile pe numărul de gene au variat de la mai mult de 312.000 la puțin sub 26.000, cu o medie de aproximativ 40.000. Aceste zile, intervalul de estimări a scăzut-cu cele mai multe acum între 19,000 și 22,000-dar există încă dezacord (a se vedea „gene Tally”).
gena numărul poate varia în funcție de datele analizate, instrumentele utilizate și criteriile pentru plivitul pozitive false. Ultimul număr a folosit un set de date mai mare și diferite metode de calcul din eforturile anterioare, precum și criterii mai largi pentru definirea unei gene. echipa lui Salzberg a folosit date din proiectul genotip-Tissue Expression (GTEx), care a secvențiat ARN din mai mult de 30 de țesuturi diferite prelevate de la câteva sute de cadavre. ARN este intermediarul dintre ADN și proteine., Cercetătorii au dorit să identifice genele care codifică o proteină și cele care nu, dar încă servesc un rol important în celule. Așa că au adunat 900 de miliarde de fragmente mici de ARN ale GTEx și le-au aliniat cu genomul uman. doar pentru că o porțiune de ADN este exprimată ca ARN, totuși, nu înseamnă neapărat că este o genă. Astfel, echipa a încercat să filtreze zgomotul folosind o varietate de criterii., De exemplu, ei și-au comparat rezultatele cu genomii din alte specii, argumentând că secvențele împărtășite de creaturi îndepărtate au fost probabil păstrate de evoluție, deoarece servesc unui scop util și astfel sunt susceptibile de a fi gene. echipa a rămas cu 21.306 gene care codifică proteine și 21.856 gene care nu codifică-multe altele decât sunt incluse în cele două baze de date cu gene umane cele mai utilizate pe scară largă. La GENCODE gene stabilit, menținut de către EBI, include 19,901 proteine-codare gene și 15,779 non-codare gene., RefSeq, o bază de date condusă de SUA de National Center for Biotechnology Information (NCBI), liste 20,203 proteine-codare gene și 17,871 non-codare gene. Kim Pruitt, cercetător al genomului la NCBI din Bethesda, Maryland și fost șef al RefSeq, spune că diferența se datorează probabil în parte volumului de date pe care echipa lui Salzberg le-a analizat. Și există o altă diferență majoră. Atât GENCODE, cât și RefSeq se bazează pe curația manuală — o persoană analizează dovezile pentru fiecare genă și face o determinare finală. Grupul lui Salzberg s-a bazat exclusiv pe programe de calculator pentru a sorta datele., „dacă oamenilor le place lista noastră de gene, atunci poate peste câțiva ani vom fi arbitrul genelor umane”, spune Salzberg. dar mulți oameni de știință spun că au nevoie de mai multe dovezi pentru a fi convinși că lista este corectă. Adam Franc, un calcul biolog la EBI care coordonează manual de adnotare a GENCODE, spune că el și grupul său au scanat aproximativ 100 de proteine-codare gene identificate de Salzberg echipa lui. Prin evaluarea lor, doar una dintre acestea pare a fi o adevărată genă de codificare a proteinelor.,
și echipa lui Pruitt s-a uitat la aproximativ o duzină din noile gene de codificare a proteinelor ale grupului Salzberg, dar nu a găsit niciunul care să îndeplinească criteriile RefSeq. Unele s-au suprapus cu regiuni ale genomului care par să aparțină retrovirusurilor care au invadat genomul strămoșilor noștri; altele aparțin altor întinderi repetitive, care sunt rareori traduse în proteine. dar Salzberg spune că unele secvențe repetitive pot fi considerate gene. Un exemplu este ERV3-1, care apare în RefSeq și codifică o proteină care este supraexprimată în cancerul colorectal., Salzberg recunoaște, de asemenea, că noile gene de pe lista echipei sale vor necesita validarea de către echipa sa și de alții.
în continuare încurcare eforturile de numărare este definiția imprecisă și în schimbare a unei gene. Biologii obișnuiau să vadă genele ca secvențe care codifică proteinele, dar apoi a devenit clar că unele molecule de ARN care nu codifică au roluri importante în celule. Judecarea care sunt importante — și ar trebui considerate gene — este controversată și ar putea explica unele dintre discrepanțele dintre contele lui Salzberg și altele.,
Totusi, este probabil ca cel puțin unele dintre genele identificate de Salzberg grupul lui se va dovedi a fi valabil, spune Emmanouil Dermitzakis, un genetician de la Universitatea din Geneva, în Elveția, care co-prezidează GTEx proiect. El nu este surprins de faptul că echipa lui conte pentru proteine-codare gene este o creștere de 5% pe precedent jetoane, având dimensiuni gigantice de GTEx set de date.
a avea un număr exact al tuturor genelor umane este important pentru eforturile de a descoperi legăturile dintre gene și boală., Genele necunoscute sunt adesea ignorate, chiar dacă conțin o mutație cauzatoare de boli, spune Salzberg. Dar adăugarea în grabă a genelor la lista de master poate prezenta și riscuri, spune Franc. O genă care se dovedește a fi incorectă poate distrage atenția geneticienilor de la problema reală. totuși, inconsecvențele numărului de gene de la baza de date la baza de date sunt problematice pentru cercetători, spune Pruitt. „Oamenii vor un singur răspuns”, adaugă ea, ” dar biologia este complexă.”