Après un gros souci en octobre dernier, les services Azure de Microsoft ont encore été affectés par des incidents avec pour conséquences des indisponibilités de services pour de nombreux utilisateurs. Pendant près de 10h (dans la soirée du 2 février jusqu'au début matinée du 3 février), le fournisseur a détecté « un problème de plateforme » ayant impacté des services Azure dans de multiples régions. Le déploiement de machines virtuelles Azure a connu des défaillances lors des phases de déploiement ou de mise à l'échelle avec des erreurs dans les opérations de provisionnement de cycle de vie. « Les clients ont pu rencontrer des échecs lors de la mise à l'échelle d'instances ou de l'application de modifications de configuration », indique le fournisseur. D'autres services ont été aussi touchés : Azure Kubernetes (provisionnement de nœuds et installation d'extensions), DevOps et GitHub Actions (pipeline pour des tâches d'extensions de VM ou packages associés), identités managées (authentification pour les workloads). « Les clients ont pu rencontrer des baisses de performances ou des défaillances lors d'opérations nécessitant le téléchargement de packages d'extension à partir de comptes de stockage gérés par Microsoft », poursuit l'éditeur. Cela concerne les serveurs Azure Arc et les services de bases de données PostgreSQL.
Une première explication a été fournie concernant cet incident : « Une modification de politique a été appliquée involontairement à un sous-ensemble de comptes de stockage gérés par Microsoft, y compris ceux utilisés pour héberger des packages d'extension de machines virtuelles », a fait savoir la société. « La politique a bloqué l'accès en lecture publique, ce qui a perturbé certains scénarios tels que les téléchargements de packages d'extension de machines virtuelles. Cela a entraîné de nombreux échecs d'installation d'extensions et a eu des répercussions en aval sur les services qui dépendent de l'approvisionnement des ensembles de machines virtuelles. »
Managed Service Identity à la peine
Ce 3 février (de minuit à 6h), Microsoft a également essuyé un autre souci, lié cette fois à Managed Service Identity dans les régions Est et Ouest des Etats-Unis. Ce problème a affecté les utilisateurs qui tentaient de créer, mettre à jour ou supprimer des ressources Azure, ou d'acquérir des jetons d'identité managés. « Après la résolution d'une panne antérieure, un pic important de trafic a saturé un service de plateforme pour les identités gérées [...] Cela a eu un impact sur la création et l'utilisation des ressources Azure avec Managed Services Identity, notamment Synapse Analytics, Databricks, Stream Analytics, Kubernetes Service, Copilot Studio, Chaos Studio, Database for PostgreSQL Flexible Servers, Container Apps, Firewall et AI Video Indexer. » Suite à ces pannes, de nombreux composants de l'infrastructure ont fait des tentatives d'initialisation, saturant la capacité et les limites du service. « Bien que nous ayons pu augmenter la capacité de notre service, la nouvelle capacité a rapidement été saturée et a dû être compensée par une réduction de la charge », explique Microsoft.
Concernant cet incident, Microsoft n'a pour l'instant pas été très loquace, mais prévoit quelques explications d'ici deux semaines : une fois son analyse bouclée, un rapport post incident sera envoyé à tous les clients concernés.