Le blocage au sol des avions d’United Airlines, qui a commencé vers dernier 8 h 30 (heure de l'Est) mercredi dernier, a provoqué des retards dans les vols de la compagnie aérienne américaine et bloqué ses passagers. Quelques semaines plus tôt, la firme avait déjà été victime d’une interruption de service, et ce même mercredi, une panne informatique a empêché les transactions du New York Stock Exchange. Le transporteur a évoqué des problèmes de connectivité de réseau, parlant ensuite d’un routeur défaillant. On aurait pu penser que la redondance des routeurs et des câbles permettrait de se prémunir contre ce type de problèmes et éviter un tel impact à l'échelle d’une compagnie aérienne internationale. Mais les pannes réseau se limitent rarement à une simple défaillance de routage. « La panne dure peut arriver assez facilement », a déclaré l'analyste de Gartner, Joe Skorupa. « Les entreprises prévoient souvent deux routeurs, dans le cas où l’un tombe en panne, et les très grandes entreprises comme United peuvent acheter deux connexions à différents opérateurs pour leurs installations principales. Mais ces mécanismes de basculement simples ne sont efficaces que pour les défaillances globales immédiatement détectables », a-t-il expliqué.

Dans la majorité des cas, la redondance ne permet pas de répondre aux problèmes de réseau. En effet, les routeurs affectent forcément d’autres routeurs, dans la mesure où ils sont censés travailler ensemble pour livrer les paquets de données au bon endroit. Une panne de routeur peut donc se traduire par beaucoup de symptômes autres qu’un arrêt total. Souvent, elle est la conséquence d’une défaillance logicielle ou d’une erreur de configuration par un ingénieur maladroit. Et elle peut se propager à d'autres routeurs ou affecter leurs performances. « Un routeur peut mal fonctionner, mais le reste du réseau ne le sait pas », a déclaré l'analyste Alam Tamboli du Dell'Oro Group. United n'a pas donné de détails sur cette panne. Les mises à jour logicielles des routeurs sont une fréquente cause de pannes générales sur les réseaux et font les grands titres des journaux. « Mais, la mise à jour des logiciels réseau est parfois une telle épreuve que certaines entreprises continuent à utiliser les mêmes versions pendant des années. Elles préfèrent gérer d’éventuels problèmes de sécurité plutôt que de risquer une mise à jour périlleuse », a déclaré Joe Skorupa.

Des pannes complexes 

Les réseaux SDN (Software Defined Networking) devraient contribuer à limiter ces dangers et à réduire le nombre de pannes importantes. Ils permettent aux administrateurs de ne pas avoir à gérer un équipement à la fois et les soulagent des tâches de configurations manuelles grâce à un contrôle logiciel centralisé et programmable. Mais le SDN n’est qu’une amélioration possible. « Pour éviter les grosses pannes, des changements en profondeur sont nécessaires », a déclaré Nick Lippis, co-fondateur de l’Open Networking User Group. Dans le cas des réseaux, la technologie est toujours gérée en silos pour le réseau, le stockage, le calcul et la virtualisation, et souvent l’IT ne voit pas les liens entre les pannes », a-t-il ajouté.

« Par exemple, une panne de routeur peut avoir pour origine un problème de stockage ou de serveur, mais elle peut aussi être responsable de ces problèmes. C’est pourquoi l’IT a besoin d’administrateurs qui comprennent les liens entre ces pannes », a-t-il encore déclaré. « Les grandes entreprises tirent des leçons des expériences de Facebook et de Google et finissent par déplacer leur activité vers les clouds privés et hybrides quand leur taille devient importante », a ajouté Nick Lippis. « De façon générale, tout se passe bien à petite échelle, mais dès que les entreprises atteignent des tailles importantes, quand les problèmes commencent à se manifester, ils sont aussi beaucoup plus conséquents ».