Après la panne géante d'AWS, Microsoft Azure a également subi une importante interruption de service. En fin d’après-midi hier, plusieurs clients de la firme de Redmond (Starbucks, Costco, mais aussi des entreprises européennes) ont constaté l’indisponibilité de leurs sites web et de certains services (messagerie, outils collaboratifs,…) reposant sur Azure. Le problème a même touché directement Microsoft en affectant la page des relations avec les investisseurs au moment où l’entreprise publié ses résultats trimestriels.
Alertées, les équipes du fournisseur ont mené l’enquête pour découvrir l’origine de la panne. Elles ont déterminé que la cause était due à une erreur de configuration dans Azure Front Door. Ce CDN (content delivery network) permet aux hébergeur de sites web de stocker des copies de leurs contenus sur une dizaine de clusters de serveurs répartis dans le monde entier. Avec ce système, les utilisateurs peuvent accéder plus rapidement aux contenus des sites web.
Des services de sécurité touchés
Habituellement, Azure Front Door intègre plusieurs fonctionnalités conçues pour minimiser les risques d’interruption de service. Quand un point de présence est hors service, le trafic est automatiquement redirigé vers un autre point. Dans le cas de la panne, Microsoft a expliqué que l’erreur de configuration avait touchée non seulement Azure Front Door, mais aussi plus d’une douzaine de services Azure qui dépendent du CDN dont des solutions de cybersécurité (Entra ID, Sentinel, Copilot for security).
Une fois la cause de la panne découverte, les équipes de Microsoft ont restauré la dernière configuration connue exempte de problème. L’entreprise a redirigé les requêtes provenant des nœuds défaillants vers des clusters rétablis. Cependant, certaines de ces requêtes parvenaient encore à des points de présence mal configurés et entraînaient des pannes intermittentes. Par ailleurs, elle a empêché ses clients de modifier la configuration de leurs déploiements Azure Front Door afin de prévenir d’éventuels problèmes techniques. Au total, la panne aura duré près de 9 heures.

Commentaire