Une succession de pannes a touché cette semaine Oracle Cloud Infrasture (OCI). L’interruption de service la plus importante a débuté lundi à 17h30 GMT et s’est prolongée jusqu’à mercredi 22h30 GMT. Elle a impacté les clients en Amérique du Nord et du Sud, en Australie, en Asie-Pacifique, au Moyen-Orient, en Afrique mais aussi en Europe.

« Les ingénieurs d’Oracle ont identifié un problème de performance au sein du backbone prenant en charge l’API OCI Public DNS, ce qui a empêché certaines demandes de services entrantes d’être traitées comme prévu », a expliqué la société. Dans une mise à jour, la firme a indiqué avoir mis en place « une approche d’atténuation adaptative utilisant des optimisations du back-end en temps réel et un réglage fin de la gestion de la charge DNS pour traiter les requêtes actuelles ».

Oracle a précisé que la panne a eu un effet domino sur ses clients. Ceux qui se servaient d’OCI Vault, API Gateway, Oracle Digital Assistant et OCI Search avec OpenSearch, par exemple, peuvent avoir reçu des erreurs ou des échecs de type 5xx (qui sont associés à des problèmes de serveur). Les clients d’Identity ont également eu des soucis lors de la création et de la modification de nouveaux domaines. De leur côté, les utilisateurs Analytics Cloud, Integration Cloud, Visual Builder Studio et Content Management ont vu la création d’instances échouée.

NetSuite victime d’un problème d’alimentation dans un datacenter

Un peu plus tôt dans la semaine, c’est l’ERP NetSuite (racheté en 2016 par Oracle) qui est tombé en carafe pendant près d’une journée. Big red n’a pas donné les raisons de cette interruption, mais nos confrères de The Register rapportent que le datacenter de Boston a été touché. « De la fumée a été signalée sur un équipement électrique dans la salle d’alimentation dans un datacenter utilisé par Oracle NetSuite », peut-on lire dans un tweet. En conséquence, les pompiers ont coupé l’alimentation du site et l’ont évacué.

Suite à cet arrêt, des clients ont signalé sur Reddit qu’ils n’étaient pas en mesure de récupérer des données enregistrées une demi-heure avant le début de la panne. Un utilisateur a publié une déclaration qui aurait été envoyée par NetSuite, confirmant que le « point de restauration se situait environ 30 minutes avant la panne. »

La résilience du cloud en question

Oracle n’est pas le seul à subir des pannes comme le montre les récents désagréments subis par les clients d’Outlook, Teams, mais aussi Exchange Online, SharePoint Online et OneDrive for Business. Ces interruptions démontrent si les acteurs du cloud disposent de datacenters redondants dans presque toutes les régions, les pertes de données sont possibles. Un risque à prendre en compte selon Sam Higins, analyste chez Forrester, « les solutions basées sur le cloud, comme leurs équivalents sur site, doivent être architecturées pour une véritable haute disponibilité et continuité ».

Il ajoute, « avoir une base cloud et une empreinte mondiale ne vous donne pas immédiatement un temps de disponibilité de 100% pour une application. Surtout pour celles ayant un long historique et un patrimoine on premise ».