l’une des premières tentatives pour estimer le nombre de gènes dans le génome humain impliquait des généticiens éméchés, un bar à Cold Spring Harbor, New York, et de pures conjectures.,
c’était en 2000, alors qu’un projet de séquence du génome humain était encore en préparation; les généticiens organisaient un tirage au sort sur le nombre de gènes que possèdent les humains, et les paris allaient de dizaines de milliers à des centaines de milliers. Près de deux décennies plus tard, les scientifiques armés de données réelles ne peuvent toujours pas s’entendre sur le nombre — un déficit de connaissances qui, selon eux, entrave les efforts pour repérer les mutations liées à la maladie.
la dernière tentative de combler cette lacune utilise des données provenant de centaines d’échantillons de tissus humains et a été publiée sur le serveur de préimpression BioRxiv le 29 mai 1., Il comprend près de 5 000 gènes qui n’ont pas été repérés auparavant — parmi eux près de 1 200 qui portent des instructions pour la fabrication de protéines. Et le décompte global de plus de 21 000 gènes codant des protéines est un bond substantiel par rapport aux estimations précédentes, qui situaient le chiffre à environ 20 000.
mais de nombreux généticiens ne sont pas encore convaincus que tous les gènes nouvellement proposés résisteront à un examen attentif. Leurs critiques soulignent qu’il est difficile d’identifier de nouveaux gènes, ni même de définir ce qu’est un gène.,
« Les gens travaillent dur à ce sujet depuis 20 ans, et nous n’avons toujours pas la réponse”, explique Steven Salzberg, biologiste computationnel à L’Université Johns Hopkins de Baltimore, dans le Maryland, dont l’équipe a produit le dernier décompte.
difficile à cerner
en 2000, alors que la communauté génomique était en ébullition sur la question du nombre de gènes humains qui seraient trouvés, Ewan Birney a lancé le concours GeneSweep., Birney, maintenant co-directeur de L’Institut européen de Bioinformatique (Ebi) à Hinxton, au Royaume-Uni, a pris les premiers paris dans un bar lors d’une réunion annuelle de génétique, et le concours a finalement attiré plus de 1 000 entrées et un jackpot de 3 000 US US. Les paris sur le nombre de gènes allaient de plus de 312 000 à un peu moins de 26 000, avec une moyenne d’environ 40 000. Ces jours — ci, la portée des estimations a diminué — avec la plupart maintenant entre 19,000 et 22,000-mais il y a toujours un désaccord (voir « Gene Tally »).
le nombre de gènes peut varier en fonction des données analysées, des outils utilisés et des critères de désherbage des faux positifs. Le dernier comptage a utilisé un ensemble de données plus large et différentes méthodes de calcul des efforts précédents, ainsi que des critères plus larges pour définir un gène.
L’équipe de Salzberg a utilisé les données du projet génotype-expression tissulaire (GTEx), qui a séquencé L’ARN de plus de 30 tissus différents prélevés sur plusieurs centaines de cadavres. L’ARN est l’intermédiaire entre L’ADN et les protéines., Les chercheurs ont voulu identifier les gènes qui codent une protéine et ceux qui ne le font pas mais qui jouent toujours un rôle important dans les cellules. Ils ont donc assemblé les 900 milliards d’ARN minuscules de GTEx et les ont alignés avec le génome humain.
cependant, ce n’est pas parce qu’une portion D’ADN est exprimée en ARN qu’il s’agit nécessairement d’un gène. L’équipe a donc tenté de filtrer le bruit en utilisant divers critères., Par exemple, ils ont comparé leurs résultats avec des génomes d’autres espèces, raisonnant que les séquences partagées par des créatures distantes ont probablement été préservées par l’évolution parce qu’elles servent un but utile, et sont donc susceptibles d’être des gènes.
L’équipe s’est retrouvée avec 21 306 gènes codant des protéines et 21 856 gènes non codants-beaucoup plus que ceux inclus dans les deux bases de données de gènes humains les plus utilisées. L’ensemble de gènes GENCODE, maintenu par L’EBI, comprend 19 901 gènes codant des protéines et 15 779 gènes non codants., RefSeq, une base de données gérée par le National Center for Biotechnology Information (NCBI) des États-Unis, répertorie 20 203 gènes codant des protéines et 17 871 gènes non codants.
Kim Pruitt, chercheur en génome au NCBI à Bethesda, Maryland, et ancien responsable du RefSeq, affirme que la différence est probablement due en partie au volume de données analysées par L’équipe de Salzberg. Et il y a une autre différence majeure. GENCODE et RefSeq s’appuient tous deux sur la curation manuelle — une personne examine les preuves pour chaque gène et prend une décision finale. Le groupe Salzberg s’est appuyé uniquement sur des programmes informatiques pour passer les données au crible.,
« Si les gens aiment notre liste de gènes, alors peut-être que dans quelques années, nous serons l’arbitre des gènes humains”, explique Salzberg.
compte difficile
Mais de nombreux scientifiques disent qu’ils ont besoin de plus de preuves pour être convaincus que la liste est exacte. Adam Frankish, un biologiste informatique à L’EBI qui coordonne L’annotation manuelle de GENCODE, dit que lui et son groupe ont scanné environ 100 des gènes codant des protéines identifiés par L’équipe de Salzberg. Selon leur évaluation, un seul d’entre eux semble être un véritable gène codant les protéines.,
et L’équipe de Pruitt a examiné une douzaine de nouveaux gènes codant des protéines du groupe Salzberg, mais n’en a trouvé aucun qui répondrait aux critères du RefSeq. Certaines chevauchaient des régions du génome qui semblent appartenir à des rétrovirus qui ont envahi les génomes de nos ancêtres; d’autres appartiennent à d’autres étirements répétitifs, qui sont rarement traduits en protéines.
Mais Salzberg dit que certaines séquences répétitives peuvent être considérées comme des gènes. Un exemple est ERV3-1, qui apparaît dans RefSeq et Code une protéine qui est surexprimée dans le cancer colorectal., Salzberg reconnaît également que les nouveaux gènes sur la liste de son équipe devront être validés par son équipe et d’autres.
La définition imprécise et changeante d’un gène est un autre facteur de confusion. Les biologistes avaient l’habitude de voir les gènes comme des séquences codant pour les protéines, mais il est devenu évident que certaines molécules D’ARN non codantes ont des rôles importants dans les cellules. Juger lesquels sont importants — et devraient être considérés comme des gènes-est controversé, et pourrait expliquer certaines des divergences entre le nombre de Salzberg et d’autres.,
néanmoins, il est probable qu’au moins certains des gènes identifiés par le groupe de Salzberg s’avéreront valides, explique Emmanouil Dermitzakis, généticien à L’Université de Genève en Suisse, qui co-préside le projet GTEx. Il n’est pas surpris que le nombre de gènes codant des protéines de l’équipe soit une augmentation de 5% par rapport aux décomptes précédents, étant donné la taille gargantuesque de L’ensemble de données GTEx.
avoir un décompte précis de tous les gènes humains est important pour les efforts visant à découvrir les liens entre les gènes et la maladie., Les gènes non dénombrés sont souvent ignorés, même s’ils contiennent une mutation causant la maladie, dit Salzberg. Mais l’ajout précipité de gènes à la liste principale peut également poser des risques, dit Frankish. Un gène qui s’avère incorrect peut détourner l’attention des généticiens du vrai problème.
pourtant, les incohérences dans le nombre de gènes d’une base de données à l’autre sont problématiques pour les chercheurs, dit Pruitt. « Les gens veulent une réponse,” ajoute-t-elle, « mais la biologie est complexe.”