Uno dei primi tentativi di stimare il numero di geni nel genoma umano coinvolti genetisti brillo, un bar a Cold Spring Harbor, New York, e pura congettura.,
Che era nel 2000, quando un progetto di sequenza del genoma umano era ancora in lavorazione; genetisti erano in esecuzione una lotteria su quanti geni gli esseri umani hanno, e le scommesse variavano da decine di migliaia a centinaia di migliaia. Quasi due decenni più tardi, gli scienziati armati di dati reali ancora non possono essere d’accordo sul numero — un divario di conoscenza che dicono ostacola gli sforzi per individuare le mutazioni legate alla malattia.
L’ultimo tentativo di colmare questa lacuna utilizza i dati provenienti da centinaia di campioni di tessuto umano ed è stato pubblicato sul server di preprint BioRxiv il 29 maggio 1., Esso comprende quasi 5.000 geni che non sono stati precedentemente avvistati – tra loro quasi 1.200 che portano le istruzioni per la produzione di proteine. E il conteggio complessivo di oltre 21.000 geni codificanti proteine è un salto sostanziale dalle stime precedenti, che mettevano la cifra intorno a 20.000.
Ma molti genetisti non sono ancora convinti che tutti i geni appena proposti resisteranno a un attento esame. Le loro critiche sottolineano quanto sia difficile identificare nuovi geni, o addirittura definire cosa sia un gene.,
“Le persone hanno lavorato duramente per 20 anni e non abbiamo ancora la risposta”, afferma Steven Salzberg, un biologo computazionale della Johns Hopkins University di Baltimora, nel Maryland, il cui team ha prodotto l’ultimo conteggio.
Difficile da definire
Nel 2000, con la comunità genomica in fermento sulla questione di quanti geni umani sarebbero stati trovati, Ewan Birney ha lanciato il concorso GeneSweep., Birney, ora co-direttore dell’Istituto Europeo di bioinformatica (EBI) di Hinxton, nel Regno Unito, ha preso le prime scommesse in un bar durante un incontro annuale di genetica, e il concorso alla fine ha attirato più di 1.000 voci e un jackpot di 3.000 dollari. Le scommesse sul numero di geni variavano da più di 312.000 a poco meno di 26.000, con una media di circa 40.000. In questi giorni, l’arco delle stime si è ridotto — con la maggior parte ora tra 19.000 e 22.000 — ma c’è ancora disaccordo (Vedi ‘Gene Tally’).
Il conteggio dei geni può variare a seconda dei dati analizzati, degli strumenti utilizzati e dei criteri per eliminare i falsi positivi. L’ultimo conteggio ha utilizzato un set di dati più ampio e diversi metodi computazionali rispetto agli sforzi precedenti, oltre a criteri più ampi per la definizione di un gene.
Il team di Salzberg ha utilizzato i dati del progetto Genotype-Tissue Expression (GTEx), che ha sequenziato l’RNA da più di 30 diversi tessuti prelevati da diverse centinaia di cadaveri. L’RNA è l’intermediario tra DNA e proteine., I ricercatori hanno voluto identificare i geni che codificano una proteina e quelli che non lo fanno, ma ancora servono un ruolo importante nelle cellule. Così hanno assemblato i 900 miliardi di minuscoli frammenti di RNA di GTEx e li hanno allineati con il genoma umano.
Solo perché un tratto di DNA è espresso come RNA, tuttavia, non significa necessariamente che sia un gene. Così il team ha tentato di filtrare il rumore utilizzando una varietà di criteri., Ad esempio, hanno confrontato i loro risultati con genomi di altre specie, ragionando sul fatto che le sequenze condivise da creature lontanamente correlate sono state probabilmente preservate dall’evoluzione perché servono a uno scopo utile e quindi sono probabilmente geni.
Il team è stato lasciato con 21.306 geni codificanti proteine e 21.856 geni non codificanti-molti di più di quelli inclusi nei due database di geni umani più utilizzati. Il GENCODE gene set, mantenuto dalla EBI, comprende 19.901 geni codificanti proteine e 15.779 geni non codificanti., RefSeq, un database gestito dal National Center for Biotechnology Information (NCBI) degli Stati Uniti, elenca 20.203 geni codificanti proteine e 17.871 geni non codificanti.
Kim Pruitt, ricercatore sul genoma presso l’NCBI di Bethesda, nel Maryland, e ex capo di RefSeq, afferma che la differenza è probabilmente dovuta in parte al volume di dati analizzati dal team di Salzberg. E c’è un’altra grande differenza. Sia GENCODE che RefSeq si basano sulla cura manuale: una persona esamina le prove per ciascun gene e fa una determinazione finale. Il gruppo di Salzberg si basava esclusivamente su programmi informatici per vagliare i dati.,
” Se alla gente piace la nostra lista di geni, allora forse tra un paio d’anni saremo l’arbitro dei geni umani”, dice Salzberg.
Tricky tally
Ma molti scienziati dicono di aver bisogno di più prove per essere convinti che l’elenco sia accurato. Adam Frankish, un biologo computazionale presso l’EBI che coordina l’annotazione manuale di GENCODE, dice che lui e il suo gruppo hanno scansionato circa 100 dei geni codificanti proteine identificati dal team di Salzberg. Secondo la loro valutazione, solo uno di questi sembra essere un vero gene codificante per le proteine.,
E il team di Pruitt ha esaminato circa una dozzina di nuovi geni codificanti proteine del gruppo Salzberg, ma non ha trovato nessuno che soddisfacesse i criteri di RefSeq. Alcuni si sovrapponevano a regioni del genoma che sembrano appartenere a retrovirus che hanno invaso i genomi dei nostri antenati; altri appartengono ad altri tratti ripetitivi, che raramente vengono tradotti in proteine.
Ma Salzberg dice che alcune sequenze ripetitive possono essere considerati geni. Un esempio è ERV3-1, che appare in RefSeq e codifica una proteina che è sovraespressa nel cancro del colon-retto., Salzberg riconosce anche che i nuovi geni nella lista del suo team richiederanno la convalida da parte del suo team e di altri.
Ulteriori sforzi di conteggio confondenti è la definizione imprecisa e mutevole di un gene. I biologi vedevano i geni come sequenze che codificano per le proteine, ma poi è diventato chiaro che alcune molecole di RNA non codificanti hanno ruoli importanti nelle cellule. Giudicare quali sono importanti-e dovrebbero essere considerati geni-è controverso e potrebbe spiegare alcune delle discrepanze tra il conteggio di Salzberg e altri.,
Tuttavia, è probabile che almeno alcuni dei geni identificati dal gruppo di Salzberg si rivelino validi, afferma Emmanouil Dermitzakis, genetista dell’Università di Ginevra in Svizzera, che co-presiede il progetto GTEx. Non è sorpreso dal fatto che il conteggio del team per i geni codificanti proteine sia un aumento del 5% sui precedenti conteggi, data la gigantesca dimensione del set di dati GTEx.
Avere un conteggio accurato di tutti i geni umani è importante per gli sforzi per scoprire i collegamenti tra geni e malattie., I geni non contati sono spesso ignorati, anche se contengono una mutazione che causa la malattia, dice Salzberg. Ma frettolosamente l’aggiunta di geni alla lista principale può comportare dei rischi, dice Frankish. Un gene che risulta errato può distogliere l’attenzione dei genetisti dal vero problema.
Ancora, le incongruenze nel numero di geni da database a database sono problematici per i ricercatori, Pruitt dice. ” La gente vuole una risposta”, aggiunge, ” ma la biologia è complessa.”