Netflix, Tinder et d'autres sites majeurs reposant sur la plate-forme cloud d’Amazon ont été affectés par une panne dimanche dernier suite à une défaillance du centre de Virginie. Le problème s’est principalement manifesté sous la forme d’un taux d'erreurs plus élevé que la normale. Parmi les autres sites également touchés, on peut encore citer IMDB et les services de livres et de vidéo à la demande d'Amazon.

La base de données DynamoDB d’AWS semble être au cœur du problème, mais cela inclurait aussi des services comme EC2, Cognito (lié à la mobilité) et CloudWatch (système de monitoring), selon le support d’AWS. « Le premier problème a commencé avec une partie de notre service de métadonnées au sein de DynamoDB », a indiqué AWS dans une mise à jour de son tableau de bord. « C’est un sous-service interne qui gère les tables et les informations sur les partitions. Nos efforts se concentrent maintenant sur le rétablissement des opérations liées aux métadonnées. »

Quid de la redondance

Selon Bill Platt, vice-président et chief architect chez BMC : « Chaque panne d’un grand acteur du web nous rappelle à quel point le facteur temps est devenu plus que déterminant. L’entreprise numérique nécessite des équipes IT toujours prêtes. Même un opérateur de référence comme AWS peut faire face à des situations encore jamais rencontrées et lorsque c’est le cas, ce sont des millions d’euros qui partent en fumée en quelques secondes. »

Si des incidents semblables se reproduire à l'avenir, AWS pourrait commencer à perdre des clients, a déclaré Rob Enderle, analyste principal chez Enderle Group. Il s’agit « d’un récit édifiant pour tous les clients d’AWS, car au final Amazon n'a pas de système de protection capable de basculer sur un autre système redondant, ce qui signifie que ses clients doivent veiller à ce qu'ils font. » Netflix a toutefois réussi à limiter les perturbations de son service en raison de sa propre approche de la redondance. « Nous avons été en mesure de rediriger rapidement le trafic de la région AWS impactée vers une autre pleinement opérationnelle », a indiqué la compagnie dans un courriel.