Un nouveau projet regroupe des textes pré-IA dans une capsule temporelle

Els Bellens

20-06-2025, 12:13 Mise à jour le: 20-06-2025, 12:13 Source: Data News 2 min. de lecture

Un nouveau site rassemble des textes et des images créés avant l’introduction de l’IA. Son contenu est traité comme un bien précieux qui doit être archivé.

John Graham-Cumming, ex-directeur de Cloudflare, a lancé un projet visant à collecter du contenu entièrement généré par des humains. Il s’agit de textes et d’images créés ‘organiquement’, avant que les machines ne s’en mêlent.

Découvrez Low-backgroundSteel.ai. Le nom du site rappelle l’époque où des chercheurs collectaient de l’acier fabriqué avant les premiers essais nucléaires. Ces essais, et les isotopes radioactifs qu’ils libéraient, corrodaient ce métal nouvellement fabriqué dans le monde entier. Pour des besoins spécifiques, les chercheurs devaient donc collecter de l’acier et du plomb provenant de navires ayant coulé avant 1945.

Low-backgroundsteel.ai souhaite faire de même pour l’expression humaine. Alors que de plus en plus d’articles et d’images sont générés par l’intelligence artificielle, il devient de plus en plus difficile de trouver des textes rédigés par des humains avec une certitude absolue. Cela a entre autres des conséquences pour les projets de recherche nécessitant des exemples d’expression humaine. Wordfreq en est un exemple: il s’agit là d’un projet à long terme qui a suivi l’utilisation des langues dans une quarantaine de celles-ci. L’objectif était notamment de documenter l’évolution des langues au fil des ans. L’une des sources importantes était internet, mais comme de plus en plus de sites s’isolent pour empêcher que leurs textes ne servent à des formations, et qu’une grande partie du reste d’internet est remplie de déchets d’IA (‘AI slop’), comme le qualifie Wordfreq, le projet a dû être abandonné.

‘Model collapse’ et capsules temporelles

La constitution d’une archive de textes humains vérifiés a plusieurs objectifs. L’un d’eux est d’éviter ce que l’on appelle le ‘model collapse’ (effondrement du modèle). L’idée est que si l’on continue de former un modèle linguistique de grande taille sur ses propres résultats, ou sur ceux d’autres modèles linguistiques de grande taille, on finira par obtenir tellement de données de piètre qualité que le modèle finira par s’effondrer.

En outre, il s’agit aussi d’une sorte de capsule temporelle d’une époque (essentiellement antérieure à 2022) où l’on est certain que tout était encore écrit par de véritables humains. C’est ainsi que le site web répertorie une archive Wikipédia d’août 2022 (avant la première sortie de ChatGPT en novembre de la même année), ainsi que des sites plus classiques comme Project Gutenberg (des livres du domaine public) et des archives photographiques de la Library of Congress américaine. Vous pouvez également suggérer vous-même des archives pour ce projet d’archéologie moderne.

Lire plus de: