Netflix a rendu public lundi le code source de son outil Chaos Monkey. Le service de cloud, soucieux du bon fonctionnement de son écosystème même en cas de panne inévitable publie donc un software visant à pointer du doigt les principales faiblesses de l'architecture en place. Disponible en téléchargement libre sur GitHub, le software fonctionne en stoppant aléatoirement des instances de machines virtuelles et des services systèmes, simulant ainsi les réactions de ce dernier lors d'une hypothétique panne. Le but: s'assurer que le système est construit avec un grand degré de redondance et si ce n'est pas le cas, améliorer son infrastructure. L'idée est de tester le systèmes en condition réelle. La capacité de Chaos Monkey à provoquer des pannes fréquentes oblige les ingénieurs à s'assurer de la redondance de leur infrastructure.

Une solution vitale et économique

Conçu dans le système Amazon Web Service, Chaos Monkey peut être configuré pour travailler sur l'offre de services web Amazon ou, après quelques ajustement, sur d'autres offres de cloud computing. Il peut être programmé pour lancer une série de tests à diverses fréquences. En général, la moyenne retenue est une fois par semaine ou une fois par jour. Dans la pratique, un cloud hautement redondant devrait détecter automatiquement une panne et continuer de tourner jusqu'à ce qu'une nouvelle configuration vienne résoudre celle-ci sans que l'utilisateur ne subisse aucun impact. Jérémie Peschka, directeur général du cabinet de conseil Brent Ozar PLF, affirme que les clients négligent trop souvent les plans de reprise après sinistre. "Il les testent encore moins", déclare t il. "Pour eux, Netflix est une solution simple et économique qui pourrait probablement être exécutée en utilisant Amazon SimpleDB, une base de données relationnelle".


Permettant l'utilisation de modèle opt-in ou opt-out, Chaos Monkey peut disposer d'une probabilité ajustable de pannes. L'an passé, le software a ainsi créé plus de 65 000 cas. Bien que la plupart d'entre eux n'aient pas posé de problèmes notables, certaines failles ont ainsi pu être isolées et résolues afin qu'elles ne se reproduisent pas.