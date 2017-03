Cela commença de manière banale. Comme le sous-système du service de stockage dans le nuage AWS Simple Storage Service (S3) fonctionnait au ralenti, un collaborateur voulut mettre quelques serveurs de S3 hors ligne. "Une commande fut cependant erronément introduite, ce qui fait que bien d'autres serveurs encore se désactivèrent", explique-t-on chez Amazon Web Services dans un communiqué. Il en résulta que deux autres sous-systèmes jetèrent l'éponge. Ils durent être ensuite entièrement redémarrés.

Or, c'était une opération qu'on n'avait plus réalisé depuis des années déjà chez Amazon. Et comme on le sait, Amazon S3 a pris une dimension nettement plus grande, ce qui fait que l'ensemble du processus de redémarrage dura beaucoup plus longtemps que ce que pensait le fournisseur de services dans le nuage. Entre le faute de frappe et la restauration d'Amazon S3, pas moins de 4 heures et 17 minutes se sont finalement écoulées. Pendant ce temps, un grand nombre d'applis et de sites web utilisant les services 'cloud' d'AWS, n'étaient pas ou quasiment pas accessibles.

Initialement, la page de statut d'Amazon Web Services ne signala pas le moindre problème au niveau des serveurs. Cette page de statut était en effet elle-même dépendante de S3, selon Amazon dans son communiqué. Tout aussi ironiquement, il y eut aussi le fait que le site web spécialisé qui contrôle si un site est accessible ou non, ne répondait plus non plus à cause de la panne.

Amazon promet à présent de prendre toute une série de mesures qui devraient garantir que ce genre de problème n'arrive plus à l'avenir. C'est ainsi que les processus de restauration des sous-systèmes S3 seront accélérés. Amazon introduira aussi des protections qui rendront impossible pour ses collaborateurs de mettre d'un seul coup toute une série de serveurs hors ligne.