Un bug mineur à l’origine d’une méga-panne chez AWS

© Getty Images
Els Bellens

Selon AWS elle-même, un bug dans son logiciel d’automatisation aurait causé une panne prolongée en début de semaine. Cette panne a rendu un grand nombre de services et de sites web inaccessibles pendant tout un temps.

La panne chez AWS, le principal fournisseur de clouds au monde, a affecté des services comme Signal, Snapchat, Reddit, Roblox et Fortnite, ainsi que des ‘produits connectés’ tels que des filtres à eau et des lits, ainsi que toute une série de sites web, dont celui du New York Times.

Importante panne chez AWS

Dans un communiqué publié sur son site web, Amazon présente à présent ses excuses et explique que la panne était due à un bug dans le logiciel d’automatisation. Plus précisément dans le logiciel qui gère le DNS (système de noms de domaine) de DynamoDB, la base de données qui stocke les informations sur les clients d’AWS.

DynamoDB gère et contrôle des centaines de milliers d’enregistrements DNS, afin de garantir une capacité suffisante et une répartition correcte du trafic entre les différentes instances d’AWS. Un fichier DNS vide dans le centre de données US-East-1 dans l’état américain de Virginie n’a cependant pas pu être restauré automatiquement, ce qui nécessita par la suite une intervention manuelle. Ce bug a en fait eu un effet boule de neige, paralysant les services de milliers de clients, qui n’ont plus pu accéder à leurs fichiers dans le cloud.

AWS déclare avoir temporairement interrompu le planificateur DNS et le logiciel d’automatisation de Dynamo DB pour résoudre le problème et installer des fonctionnalités de sécurité supplémentaires.

Centralisation

L’impact considérable de la panne soulève à présent bien des questions quant à la dépendance de nombreuses entreprises à un ou quelques géants technologiques. AWS, avec une part de marché de trente pour cent, est le principal acteur sur le marché du cloud. Or ce dernier est énorme et essentiellement dominé par quelques entreprises (principalement américaines).

‘Internet a été conçu pour être résilient’, affirme la chercheuse Suelette Dreyfus de l’université de Melbourne à la BBC. ‘Il y avait différents canaux pour acheminer le trafic en contournant les problèmes ou attaques. Nous avons perdu une grande partie de cette résilience en devenant dépendants d’une poignée d’entreprises qui gèrent non seulement le stockage des données, mais aussi tous les services data associés.’

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Expertise Partenaire