Depuis le mois de mai, l’Internet Archive stocke sensiblement moins d’archives de pages web. Plus préoccupant encore: nombre de ces sites web sont liés à l’actualité.
Si vous lisez ces lignes, il y a de fortes chances que vous utilisiez de temps à autre, voire régulièrement la ‘Wayback Machine’ de l’Internet Archive. Ce faisant, vous faites réapparaître des articles ou des pages web remontant à des années ou même des décennies. C’est là une source d’une valeur inestimables qui exécute précisément l’appellation de l’organisation à but non lucratif: archiver internet. L’Internet Archive assume l’archivage de quelque 500 millions de pages web par jour.
Or ces derniers mois, la Wayback Machine semble avoir des ratés, ce qui est préoccupant d’un point de vue historique. Selon un nouveau rapport de Nieman Lab auquel Mashable fait référence, la Wayback Machine de l’Internet Archive stocke ces derniers temps nettement moins certains sites web. Plus préoccupant encore: nombre de ces sites web opèrent dans le domaine de l’actualité.
D’après le rapport de Nieman Lab, la Wayback Machine a, entre le 1er janvier et le 15 mai 2025, archivé 1,2 million d’instantanés des pages d’accueil de 100 grands sites web d’actualité. Mais on a soudainement assisté à un tournant à la mi-mai. Entre le 17 mai et le 1er octobre 2025, le système d’archivage n’a tout-à-coup stocké que 148.628 instantanés des pages d’accueil de ces mêmes sites web d’actualité. Cela représente une baisse très significative de 87 pour cent du nombre de pages archivées entre les quatre premiers mois de l’année et les cinq suivants. Et cela suscite de sérieuses questions à propos de l’exhaustivité de la principale archive numérique au monde ces derniers temps.
Un dysfonctionnement ou une autre cause plus importante?
Mark Graham, le directeur de la Wayback Machine, a déclaré à Nieman Lab qu’un dysfonctionnement dans certains projets d’archivage spécifiques en mai en était la raison. Selon Graham, pour certains des instantanés manquants, il n’existait pas encore la structure d’indexation adéquate, mais ils seraient bientôt ajoutés à l’archive Wayback Machine. Or selon Nieman Lab, un retard de cinq mois dû à des problèmes d’indexation est très inhabituel. Graham évoque par ailleurs ‘diverses raisons opérationnelles’ telles que ‘l’allocation de ressources’ sans précision ni explication supplémentaire.
31 millions de données de comptes volées chez Internet Archive
Depuis 1996, l’Internet Archive assume la responsabilité de stocker des archives de pages web d’articles de presse. Mais l’organisation à but non lucratif a déjà connu beaucoup de problèmes ces dernières années. Il faut beaucoup de ressources non seulement pour explorer internet, mais aussi pour stocker les données et les garder consultables. Comme le rapporte Nieman Lab, les dépenses de l’Internet Archive en 2023 se sont élevées à 32,7 millions de dollars. Or l’organisation à but non lucratif n’a généré que 23 millions de dollars de rentrées cette même année. En outre, l’Internet Archive a été victime d’une fuite massive de données en octobre dernier, ce qui a entraîné la mise hors ligne du site, ainsi que de la Wayback Machine. Il a fallu des semaines pour que le site soit entièrement restauré, après quoi une nouvelle attaque a suivi.
Internet Archive à nouveau opérationnel après une cyberattaque
Pression juridique
Le déclin des activités d’indexation sur le web ne semble pas être étranger à la forte pression juridique qui pèse actuellement sur l’Internet Archive. C’est ainsi que l’organisation est impliquée dans une bataille contre un groupe d’importants éditeurs (tels que Hachette, Wiley et Penguin Random House) au sujet de son programme ‘Controlled Digital Lending’, qui se concentre sur le scannage et le prêt de livres. De plus, de grands labels discographiques ont accusé l’Internet Archive d’avoir numérisé d’anciens disques 78 tours dans le cadre du ‘Great 78 Project’.
Bien que l’Internet Archive n’ait pas fourni d’explication officielle établissant un lien direct entre la baisse d’archivage des instantanés et les dépenses juridiques, la corrélation semble évidente. En tant qu’organisation à but non lucratif, elle est dépendante de dons. Les ressources qui doivent maintenant être utilisées pour la défense juridique contre des réclamations de plusieurs milliards de dollars, ne peuvent pas en même temps être consacrées à la puissance de calcul et au stockage nécessaires à l’indexation intensive du web. ‘Le timing du recul des instantanés de la Wayback Machine coïncide exactement avec la période où la bataille juridique de l’Internet Archive s’est intensifiée’, fait observer Mashable.
Comment conserver les données pour un avenir lointain ?