Une AI a pu déchiffrer un manuscrit ‘nébuleux’ datant probablement de 600 ans

Le manuscrit Voynich, qui fait partie de la collection Beinecke de l'université de Yale © .

Els Bellens

31-01-2018, 13:52 Mise à jour le: 17-08-2022, 08:22 Source: DataNews 3 min. de lecture

Le mystérieux manuscrit Voynich passait depuis cent ans pour être impossible à déchiffrer, mais à présent, des chercheurs canadiens auraient accompli une avancée importante au niveau de son décodage avec l’aide de l’intelligence artificielle (AI).

Des chercheurs canadiens de l’université d’Alberta ont enregistré un certain progrès dans le déchiffrage de l’un des principaux langages codés au monde, comme ils l’annoncent dans un rapport. Il s’agit en l’occurrence du manuscrit Voynich, l’une des ‘écritures codées’ les plus connues au monde.

Le manuscrit Voynich est un document de 240 pages en parchemin velum, rempli d’une écriture codée étrange et de dessins tout aussi bizarres de plantes, diagrammes et femmes nues. Il doit son nom à Wilfrid Voynich, un libraire polonais qui l’acheta en 1912. Personne ne sait de quoi il parle exactement. Comme le texte est rédigé dans une écriture inconnue intégrant un langage crypté, il est particulièrement malaisé, voire impossible, à déchiffrer.

Durant le siècle qui suivit la découverte du manuscrit, nombre de linguistes et de cryptographes se sont cassé la tête sur son texte. Parmi eux, on retrouva par exemple des ‘craqueurs’ de codes secrets de la Seconde Guerre Mondiale, pourtant de véritables professionnels dans le domaine, mais qui n’allèrent pas très loin dans leur décryptage. Tout cela généra des théories, selon lesquelles il s’agissait d’un canular (‘hoax’). D’autres sont convaincus que le manuscrit est l’oeuvre d’extra-terrestres.

Une AI a pu déchiffrer un manuscrit 'nébuleux' datant probablement de 600 ans — © Université de Yale: la collection Beinecke

Indentification du modèle/gabarit

Il était donc temps de faire appel à l’intelligence artificielle. Une analyse IT, de par sa focalisation sur l’identification du modèle, convient assez bien pour le déchiffrage de ce genre de chose. Chaque langue possède des lettres et des mots qui apparaissent plus souvent que d’autres. C’est la raison pour laquelle la lettre ‘e’ au Scrabble vaut si peu de points, et aussi comment on arrivé même à déchiffrer des langages codés assez complexes. Ce n’est pas pour rien qu’un code comme le Vigenère Cipher, qui était si puissant qu’il passait pour ‘être indécryptable’ durant toute la Renaissance, fut ‘craqué’ par Charles Babbage. Actuellement, on trouve en ligne pour cette écriture codée un petit scipt assez simple.

Il est dès lors question ici d’une identification de modèle poussée que Greg Kondrak, expert en traitement linguistique à l’université d’Alberta, appliqua au manuscrit Voynich pour forcer son décodage. Avec l’aide de quelques étudiants, il aurait à présent découvert que le texte était rédigé en hébreu, où les lettres s’inséraient dans un modèle fixe. Le manuscrit n’en est pour autant pas encore déchiffré, mais cela devrait orienter d’autres équipes dans la bonne direction.

Droits de l’Homme

Pour y arriver, les chercheurs ont formé une AI en lui soumettant le texte de la Déclaration Universelle des Droits de l’Homme en 380 langues différentes, dans une tentative d’y trouver des modèles (gabarits). Une fois formée, l’AI a analysé le manuscrit Voynich et en arriva à la conclusion que le texte était très probablement rédigé en hébreux crypté.

Dans un second temps, les chercheurs se basèrent sur l’hypothèse déjà avancée par des équipes de recherche précédentes, selon laquelle le texte avait été créé avec des alphagrammes. Cela sous-entend que des mots sont remplacés par une série d’anagrammes classés par ordre alphabétique. Avec cette technique, ‘Datanews’ deviendrait par exemple ‘Aadenstw’. L’équipe canadienne a donc créé un nouvel algorithme, cette fois pour reconvertir les alphagrammes en mots hébreux. “On observa alors que quatre-vingts pour cent des mots que nous trouvions, figuraient dans un dictionnaire d’hébreu, mais nous ne savions pas s’ils signifiaient quelque chose dans une phrase”, explique Kondrak au site technologique Gizmodo.

Google Translate

Ils ont donc déchiffré la première phrase du manuscrit et l’ont remise à un collègue appelé Moshe Koppel, un chercheur informatique ayant l’hébreux comme langue maternelle. Celui-ci conclut que cela ne ressemblait à rien. Une étape intermédiaire supplémentaire via Google Translate réussit à traduire la phrase en un anglais acceptable: ‘She made recommendations to the priest, man of the house and me and people’. Un peu bizarre comme phrase initiale, mais le fait est qu’il s’agit d’un étrange manuscrit, comme l’indique la théorie.

Kondrak admet que ce qui précède, doit être considéré comme une première étape et que les historiens connaissant l’hébreu ancien doivent à présent étudier le texte. L’équipe canadienne envisage d’appliquer à présent son AI à d’autres vieux textes, afin de décrypter si possible davantage de manuscrits encore.

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici