De ChatGPT à Doctissimo en passant par Google, Instagram ou encore X, on ne compte plus le nombre de sites web et services en ligne ayant pâti de la panne Cloudflare du 18 novembre à partir de 12h20 (11h20 UTC). Résolu à 18h06 (17h06 UTC), cet incident n’a pas résulté d’une cyberattaque ni d’une attaque DDoSbien que le fournisseur ait envisagé qu'un acteur malveillant aurait pu cibler à la fois ses systèmes et sa page d'état.

A l’origine du problème : une modification indésirable des permissions au sein d’un des systèmes de bases de données du fournisseur. « Cette opération a contraint la base de données à sortir plusieurs entrées au sein d'un fichier de fonctionnalité utilisé par notre système de gestion des bots Bot Management. Ce fichier a doublé de taille en retour. Plus volumineux que prévu, le fichier de fonctionnalité a ensuite été propagé à toutes les machines qui composent notre réseau », explique dans un billet de blog de Matthew Prince, CEO de Cloudflare. « Le logiciel exécuté sur ces serveurs lit ce fichier de fonctionnalités afin d'acheminer le trafic sur notre réseau et de maintenir le système de notre service Bot Management à jour face à un panorama des menaces en constante évolution. La limite définie pour ce fichier de fonctionnalité au sein du logiciel était inférieure à la taille réelle du fichier ce jour-là, qui représentait le double de la normale. Ce problème a entraîné une défaillance du logiciel. »

De fulgurants mais courts rétablissements de trafic

Après avoir remplacé son fichier de fonctionnalité par une précédente version, le trafic est revenu à la normale à 15h30 (14h30 UTC)A noter que pendant le temps de résolution de ce problème, les erreurs de trafic réseau ont été fluctuantes, ce qui a pu permettre à certains services ou sites web d’être temporairement disponibles avant d’être de nouveau inaccessibles et ainsi de suite. « L'explication de ces moments de rétablissement réside dans le fait que le fichier était généré toutes les cinq minutes par une requête exécutée sur un cluster de base de données ClickHouse, qui faisait l'objet d'une mise à jour progressive destinée à améliorer la gestion des autorisations. Les données incorrectes n'étaient générées que si la requête était exécutée sur une partie du cluster en cours de mise à jour. Il y avait par conséquent une chance pour que le fichier de configuration généré et rapidement propagé sur le réseau toutes les cinq minutes se révèle fonctionnel ou dysfonctionnel », explique M. Prince. « Les erreurs se sont poursuivies jusqu'à identification et résolution du problème sous-jacent, soit à partir de 15h30. Nous avons résolu le problème en arrêtant la génération/propagation du fichier de fonctionnalité erroné, puis en insérant manuellement un fichier fonctionnel connu au sein de la file d'attente de distribution du fichier de fonctionnalité. Nous avons ensuite forcé le redémarrage de notre proxy principal »Outre le CDN et les services de sécurité de base, d’autres services de Cloudflare ont été affectés par cet incident hors norme : Access, Email Security, Tableau de bord, Turnstile et Workers KV.