Un progrès pour la science: DeepMind stocke quasiment toutes les protéines humaines dans une banque de données

Els Bellens

L’institution AI DeepMind et ses partenaires de recherche mettent à disposition une base de données intégrant les structures 3D de quasiment chaque protéine humaine. Voilà qui pourrait représenter un incroyable pas en avant pour la recherche tant biologique que médicale.

L’année dernière, DeepMind, une filiale de Google s’occupant d’intelligence artificielle sophistiquée, lançait un programme en matière de repliement des protéines. AlphaFold, comme ce programme s’appelle, tente de savoir comment les différentes protéines se présentent dans le corps humain et quelles fonctions elles remplissent.

En décembre dernier, le programme avait déjà réussi à enregistrer un succès en apprenant à prévoir en grande partie comment les protéines se replient. C’était là un problème auquel était confrontée la science depuis des dizaines d’années déjà. Les protéines se replient dans des figures tridimensionnelles uniques très difficilement prévisibles jusqu’il y a peu. Mais quand on sait quelle forme les protéines prennent, on sait aussi mieux quelle fonction elles assument, ce qui peut aider dans la lute contre toute une série de maladies telles le Covid-19 par exemple.

Comme AlphaFold semble particulièrement rapide et précis dans ses prévisions, Deepmind et ses partenaires, dont le Bioinformatics Institute européen, ont à présent mis au point une banque de données appelée AlphaFold Protein Structure Database. On y trouve des centaines de milliers de séquences de protéines avec leurs structures prévues par AlphaFold. L’objectif est d’en ajouter encore des millions, selon les chercheurs de DeepMind dans un rapport paru dans la revue scientifique Nature.

Génome et protéines

L’idée sous-jacente à la banque de données de protéines est comparable au projet de génome humain qui avait démantelé l’ADN humain dans les années nonante. Toute une série de chercheurs et d’organisations consacrèrent à l’époque treize années pour définir la structure du génome humain. Ils y arrivèrent en 2003. Cette connaissance a entre-temps été à la base de pas mal de nouveaux médicaments et d’une meilleure compréhension de nombreuses affections.

Mais l’ADN n’est donc pas tout, car les protéines semblent également particulièrement malaisées à comprendre. Elles sont en outre nettement plus complexes que le génome, et les étudier nécessite une grande quantité de puissance informatique, ce qui a conduit en 2000 au lancement du projet Folding@Home par exemple, permettant à des bénévoles de regrouper leur puissance de calcul en vue d’aider les scientifiques.

Accélération

AlphaFold est toutefois parvenu à donner un tour imprévisible à la recherche sur les protéines, parce qu’il pouvait prévoir de manière nettement plus précise que lors de simulations précédentes comment une protéine se replie, mais aussi parce que ce programme est nettement plus rapide que la recherche en laboratoire sur ces protéines. Si on y ajoute le fait que la puissance de calcul des ordinateurs s’est énormément améliorée ces dernières années, on en arrive au point où il est possible de prévoir avec suffisamment de précision la structure de quelque 98,5 pour cent des protéines humaines, en quelque sorte la façon dont elles se replient.

Ces structures sont à présent placées dans la base de données, conjointement avec les protéines de quelques autres organismes tels E. coli. En tout, la banque de données contient 350.000 structures de protéines et devrait être mise gratuitement à disposition des chercheurs, comme une sorte de moteur de recherche d’après l’exemple de Google.

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Contenu partenaire