De Snapshat à Roblox en passant par Coinbase, la Lloyds, Bank of Scotland, Halifax ou encore Duolingo, Roblox, Fortnite, Grok, whatsapp, chatGPT, Lyft, Hulu, McDonald’s, Perplexity, United Airlines, T-Mobile, Starbucks, l'autorité britannique chargée des impôts, des paiements et des douanes britannique (HMRC)... On ne compte plus le nombre de services, applications et sites web ayant été impactés par la dernière panne mondiale AWS. Selon Downdetector, 6,5 millions de signalements ont été effectués par les utilisateurs concernant plus de 1 000 sites et services rendus indisponibles à cause (ou très certainement) de l’incident majeur qui a frappé le géant du cloud américain.
Mais dans la nuit de lundi à mardi - 00h53 heure française (lundi 20 octobre à 15h53 heure du Pacifique aux US), le problème et les conséquences liés à la panne de résolution DNS du point de terminaison de l'API du service DynamoDB d’AWS en Caroline du Nord (US-EAST-1) ont été entièrement résolus. Celle-ci avait provoqué des perturbations sur 142 instances AWS reposant sur ce service de base de données NoSQL (database migration service, elastic cloud et kubernetes service...) avec par effet domino la mise à plat d’une petite partie de l’Internet mondial.
Une résolution d’incidents plus complexe que prévue
La résolution de l'incident ne s'est cependant pas déroulée sans accroc : après avoir réglé le souci de résolution DNS à 2h24 (10h24 heure française, lundi 20 octobre), AWS a constaté une défaillance du sous-système interne d'EC2 chargé du lancement des instances EC2 en raison de sa dépendance à DynamoDB. Mais ce n’est pas tout : « Alors que nous continuions à travailler sur les défaillances du lancement des instances EC2, les contrôles d'intégrité du network load balancer ont également été affectés, ce qui a entraîné des problèmes de connectivité réseau dans plusieurs services tels que Lambda, DynamoDB et CloudWatch », expliqué AWS dans un billet de support annonçant la clôture de l’incident. Les contrôles d’intégrité de son répartiteur de charge réseau ont ensuite pu être rétablis à 9h38 (18h38 heure française, lundi 20 octobre).
Dans le cadre de ses efforts de rétablissement, AWS indique aussi avoir dû temporairement limiter certaines opérations telles que les lancements d'instances EC2, le traitement des files d'attente SQS via les mappages de sources d'événements Lambda et les invocations Lambda asynchrones. « Au fil du temps, nous avons réduit la limitation des opérations et travaillé en parallèle pour résoudre les problèmes de connectivité réseau jusqu'à ce que les services soient entièrement rétablis », poursuit le fournisseur.
Les circonstances de l'incident encore à éclaircir
AWS ne s’est pas étendu sur les circonstances de l’origine de la panne de résolution DNS, mais prévoit de donner un peu plus tard d’autres explications. Interrogé par Fierce Network, Davi Ottenheimer, responsable des opérations de sécurité et de conformité et vice-président d'Inrupt explique : « Lorsque le système n'a pas pu déterminer correctement à quel serveur se connecter, des pannes en cascade ont interrompu les services sur Internet ». Et de poursuivre : « La panne AWS d'aujourd'hui est un problème classique de disponibilité, et nous devons commencer à la considérer davantage comme une défaillance de l'intégrité des données ». Pour rappel le système de noms de domaine est utilisé pour traduire les URL web en adresses IP numériques de serveurs pour permettre aux navigateurs web d’afficher le bon contenu demandé par les internautes. Les problèmes de résolution DNS surviennent lorsque les serveurs DNS ne relient pas correctement ces points débouchant alors sur des erreurs. A ce stade le scénario d’un empoisonnement DNS ou d’une attaque malveillante ne tient pas la corde.
Ce n’est pas la première fois qu’Amazon rencontre une défaillance majeure, cela avait été le cas en juin 2023, dans la même région. Ce n’est pas le seul fournisseur cloud à rencontrer de pareilles pannes : Akamai, Google Cloud Platform, IBM, Microsoft ont eux aussi rencontré de graves difficultés avec des répercussions conséquentes sur l’activité Internet mondiale (FedEx, Steam, PlayStation Network...).