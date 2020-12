Amazon a donné davantage de détails sur la cause de sa panne. Celle-ci serait due à l'ajout de serveurs, ce qui fait que la capacité maximale a été atteinte.

Le 25 novembre aux environs de 19 heures (de chez nous), plusieurs services AWS furent paralysés. Il s'agissait des serveurs Kinesis de la zone US-EAST-1. La panne dura quasiment toute la soirée et la luit, ce qui fait que divers services dans le nuage connurent des difficultés.

AWS donne à présent plus d'explications à propos de la panne. Le problème s'est manifesté du fait qu'Amazon a ajouté davantage de capacité (serveurs) à son service Kinesis utilisé tant par les clients que par des activités internes d'AWS.

Ces serveurs doivent communiquer mutuellement, et chaque serveur crée des fils d'exécution ('threads') pour dialoguer avec d'autres serveurs Kinesis. Mais il est ici question d'un ensemble de milliers de serveurs, ce qui fait que lors d'une extension, cela prend vite une heure pour que ces appareils supplémentaires trouvent leur place de manière fluide dans l'ensemble.

Les problèmes sont dus spécifiquement au fait qu'en raison de l'extension, le nombre maximal de fils d'exécution a été dépassé. La situation a certes été solutionnée, mais elle contraignit AWS à redémarrer le service. Comme ce redémarrage n'est possible qu'avec quelques centaines de serveurs simultanément, l'opération dura cette fois particulièrement longtemps.

AWS déclare qu'une solution a été prévue à long terme. Dans un premier temps en utilisant des serveurs équipés de CPU plus puissants et d'une plus grande mémoire, ce qui fait qu'il faut moins de serveurs en tout et que moins de fils d'exécution doivent de ce fait être créés. En même temps, l'entreprise prépare une alarme permettant de savoir en temps voulu si trop de fils d'exécution sont utilisés, et de déconnecter de l'ensemble des serveurs certains services importants, tels CloudWatch, afin qu'ils pâtissent moins de ce genre de problème.

