À la suite de frappes américano-israéliennes survenues samedi 28 février, plusieurs centres de données d’Amazon Web Services (AWS) situés au Moyen-Orient, notamment aux Émirats arabes unis et à Bahreïn, ont été touchés par des attaques de drones. Ces attaques ont entraîné une panne majeure et des dommages matériels, des perturbations importantes compliquant fortement la reprise des services pour les clients de la région.

Depuis l’incident, l’entreprise publie régulièrement des mises à jour tout en s’efforçant de rétablir ses infrastructures. Elle recommande toutefois aux entreprises dont les charges de travail s’exécutent au Moyen-Orient d’agir sans attendre en migrant vers d’autres régions AWS. « Les clients doivent activer leurs plans de reprise d'activité (PRA), restaurer à partir de sauvegardes distantes stockées dans d’autres régions et mettre à jour leurs applications pour rediriger le trafic hors des régions affectées », a indiqué le fournisseur. Pour de nombreux observateurs, la violence des attaques met surtout en lumière les lacunes de certains dispositifs de continuité.

Un besoin d’auditer le rayon d’impact

Pour Nik Kale, ingénieur principal chez Cisco, l’événement agit comme un révélateur. « Cette attaque montre quelque chose que la plupart des entreprises font mal depuis des années », estime-t-il. Selon lui, les plans de reprise après sinistre reposent encore trop souvent sur l’hypothèse de pannes locales et techniques comme les coupure de courant, défaillance de refroidissement ou rupture de fibre. Or, poursuit-il, la situation observée cette semaine relève d’un événement à l’échelle régionale, dicté par la géopolitique plutôt que par une défaillance d’infrastructure. « Si votre plan de reprise après sinistre n’envisage pas la possibilité qu’une région géographique entière devienne soudainement hostile sur le plan opérationnel, vous n’avez pas de plan de reprise. Vous avez un manuel de maintenance », tranche l’ingénieur.

Dans ce contexte, les attaques dépassent clairement les scénarios anticipés par la plupart des organisations. Nik Kale appelle ainsi les architectes d’entreprise à conduire ce qu’il qualifie d’« audit du rayon d’impact » : cartographier chaque charge de travail critique vers sa région physique, identifier les dépendances mono-région et tester réellement les mécanismes de bascule lorsque toute une région devient indisponible et non plus seulement lorsqu’une zone subit un incident isolé. Selon lui, « les entreprises qui traverseront ce type d’événement ne sont pas celles qui ont les dossier de PRA les plus épais, mais celles qui ont réellement basculé vers un autre continent ».

Des PRA à activer immédiatement...

Face à la situation, les clients AWS du Moyen-Orient qui n’ont pas encore mis en œuvre des plans de reprise d'activité complets doivent les activer sans délai, conseille Brad Lassiter, CEO de la société de services IT Last Tech. « Les clients doivent basculer vers d’autres régions et zones de disponibilité et vérifier les règles DNS et de routage. Réduisez le time to live autant que possible afin que le réseau puisse modifier les schémas de trafic si nécessaire », indique-t-il. Il ajoute que les entreprises doivent également passer à des opérations manuelles pour vérifier les transactions à forte valeur.

Sur le plan juridique, les entreprises espérant obtenir réparation pourraient toutefois déchanter, prévient Frank Jennings, associé chez HCR Legal et spécialiste du droit du cloud. « La plupart des utilisateurs AWS n’ont probablement pas vérifié leur SLA pour des pannes causées par des frappes de drones ! Néanmoins, la plupart des SLA cloud excluent explicitement de leurs engagements de disponibilité les interruptions dues à des événements hors du contrôle raisonnable du fournisseur (force majeure), y compris catastrophes naturelles, actes terroristes ou guerre », explique-t-il.  Il souligne néanmoins que les définitions de la force majeure restent souvent vagues : « Sa portée dépend de la formulation précise de la clause concernée ». L’avocat recommande ainsi aux clients AWS comme aux utilisateurs d’autres hyperscalers d’examiner attentivement leurs contrats et de ne pas « traiter les accords de services cloud comme des achats de commodité à faible risque ». 

... et des stratégies cloud à réévaluer

Plus largement, ces attaques devraient pousser de nombreuses sociétés à revoir leur approche, estime Nik Kale. « La plupart des entreprises choisissent leurs régions cloud en fonction de la latence et du prix », observe-t-il. « Cette semaine a prouvé que votre région cloud est une décision géopolitique, que vous le reconnaissiez ou non. » Il a souligné que les propres recommandations d'AWS conseillent aux clients de mettre en œuvre ce qu'ils auraient dû prévoir dès le départ : assurer la portabilité des charges de travail entre les régions, conserver les sauvegardes à distance en dehors de la zone d'impact et disposer d'un système de gestion du trafic au niveau des applications qui ne dépende pas de l'accessibilité de la région touchée.

AWS indique néanmoins progresser dans la restauration des services. Dans son bulletin publié le 3 mars à 17h14 heure française, l’entreprise précise : « Pour Amazon S3, nous constatons une amélioration continue de la disponibilité des opérations PUT et LIST. Les objets nouvellement écrits peuvent désormais être récupérés avec succès. » Le fournisseur indique poursuivre les travaux sur DynamoDB ; les autres services suivront une fois celui-ci rétabli, tandis que les instances EC2 restent limitées dans la région.