Retour sur la panne totale de Facebook

La cause principale de la panne mondiale des services de Facebook, WhatsApp, Instagram et Messenger pendant près de six heures semble être une mise à jour malencontreuse du Border Gateway Protocol sur ses routeurs externes.

« Il est certain que quelque chose doit mal tourner chez Facebook lorsque l'entreprise est obligée de se tourner vers son concurrent, Twitter, pour communiquer avec ses utilisateurs ». Ce commentaire de Mike Proulx, vice-président et directeur de recherche chez Forrester, est particulièrement cruel pour la plateforme de Mark Zuckerberg, qui est restée indisponible pendant six heures le 4 octobre dernier. Le problème est plus profond que les défaillances DNS évidentes de Facebook. Le service Instagram, propriété de Facebook, était également hors service, et ses services DNS - qui sont hébergés sur Amazon plutôt que d'être internes au réseau de Facebook - étaient fonctionnels. Instagram et WhatsApp étaient joignables, mais affichaient des échecs HTTP 503 (aucun serveur n'est disponible pour la requête), ce qui indique que si les DNS fonctionnaient et que les équilibreurs de charge des services étaient joignables, les serveurs d'application qui devraient alimenter les équilibreurs de charge ne l'étaient pas.

Dane Knecht, vice-président de Cloudflare, a signalé que toutes les routes BGP pour Facebook avaient été retirées. BGP, abréviation de Border Gateway Protocol, est le système par lequel un réseau détermine la meilleure route vers un autre réseau. En l'absence de routes BGP vers le réseau de Facebook, les propres serveurs DNS de Facebook étaient inaccessibles, tout comme les serveurs d'application manquants pour Instagram, WhatsApp et Oculus VR, qui appartiennent à Facebook. « Au cours des deux dernières années, Facebook a consolidé son écosystème d'applications disparates sur une seule infrastructure dorsale. Cette démarche permet à l'entreprise de gagner en efficacité opérationnelle et de s'isoler d'un éventuel démantèlement par les régulateurs. Mais elle expose également Facebook au risque de concentration. Un événement à risque unique qui produit un effet en cascade - comme les vieilles guirlandes électriques de Noël : si l'une d'entre elles s'éteint, toutes les autres s'éteignent. Cette stratégie se fait au détriment de la redondance et nuit à la résilience de l'entreprise. Elle irrite également les consommateurs qui ne veulent pas d'un profil de médias sociaux unifié à travers la famille d'applications de Facebook », explique Mike Proulx dans un billet.

D'autres pannes à venir

Une explication confortée par Usman Muzaffar, vice-président en charge de l’ingénierie chez Cloudflare : « D'après ce que nous comprenons, la panne de Facebook viendrait d'un problème de configuration BGP et selon notre expérience, il s'agit généralement d'erreurs et non d'attaques ». De son côté, ThousandEyes indiquait sur son blog que « l’application de Facebook était globalement inaccessible en raison d'un échec de résolution DNS ». Guère optimiste, Mike Proulx assène que « la panne de Facebook d'aujourd'hui n'était pas la première et elle ne sera pas la dernière. C'est un rappel aux annonceurs de mettre en place des plans d'atténuation proactifs afin d'éviter de se retrouver dans la panade en essayant de trouver ce qu'il faut faire sur le moment ». Laissons le dernier mot à Renee Murphy, analyste principale chez Forrester : « Le risque est partout, même dans les protocoles de réseau. »

Sur le même thème

Partenaires

Retour sur la panne totale de Facebook

Livres blancs

D'autres pannes à venir

Commentaire

Suivre toute l'actualité

Newsletter

Livres blancs

D'autres pannes à venir

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter