Dans la nuit du 16 au 17 décembre, à 1h55 heure française Snowflake a rencontré un gros souci technique avec sa solution Data Cloud. « Des clients ayant des instances hébergées de cette solution dans certaines régions n’étaient plus en mesure d'exécuter des requêtes. Ces derniers pouvaient voir s’afficher notamment le message erreur interne d'exécution SQL », a expliqué l'éditeur dans un rapport d'incident. Une heure et demi plus tard environ (3h34), l’éditeur indiquait avoir identifié la source du problème et développer une solution pour y remédier. Après avois indiqué un temps de restauration approximatif de 5h soit aux alentours de 10h, le problème a finalement nécessité plus de temps pour être résolu. En plus de l’impossibilité d’exécuter des requêtes, les utilisateurs concernés pouvaient également rencontrer des retards ou des échecs lors de l'utilisation de Snowpipe ou Snowpipe Streaming pour ingérer des fichiers, sachant que la fonction de data clustering pouvait aussi rencontrer des défaillances.
A 14h, l’éditeur a annoncé avoir réussi à atténuer l'impact dans toutes les régions concernées, à l'exception d'Azure - Est des États-Unis 2 (Virginie). Finalement il aura fallu attendre 16h25 pour que le problème soit totalement résolu. Soit en tout 14h30 de souci. Dans son rapport, Snowflake indique avoir identifié la cause initiale présumée du problème : « notre enquête préliminaire a révélé que notre dernière version comportait une mise à jour du schéma de base de données incompatible avec les versions antérieures. En conséquence, les packages des versions précédentes faisaient référence de manière incorrecte aux champs mis à jour, ce qui entraînait des erreurs de version incompatibles et provoquait l'échec des opérations ou leur ralentissement ». Pour ce souci, il n'existait aucune solution de contournement, sauf pour les clients dont la réplication basculait vers des régions non touchées.
Plusieurs régions affectées
Cet incident a affecté les services Data Cloud dans 9 régions sur 43 des clouds partenaires de Snowflake. Pour AWS, les perturbations ont concerné : US West Oregon, Europe en Irlande et l'Asie-Pacifique à Mumbai. Pour Google Cloud Platform, la région Europe Ouest 2 à Londres a été touchée. Du côté d'Azure, l'Est de Etats-Unis en Virginie, Mexico, la Suisse Nord (Zurich), la Suède centrale (Gävle) et Asie du Sud Est (Singapour).
Snowflake indique dans sa documentation prendre en charge les régions de ses trois partenaires cloud AWS, GCP et Microsoft Azure, groupées en trois segments géographiques mondiaux (Amérique du Nord/Sud, Europe/Moyen-Orient/Afrique, et Asie-Pacifique/Chine).
Un cas pas isolé
Il s'agit du deuxième incident rencontré par Snowflake en une semaine, après un problème d'infrastructure de base de données survenu le 9 décembre qui avait entraîné une dégradation des performances pour les utilisateurs de son logiciel depuis le datacenter AWS situé dans l'Oregon. Un peu plus tôt dans le mois, son concurrent Databricks a également connu une interruption de service au cours.

Commentaire