Brique après brique, l’éditeur franco-américain Datadog enrichit sa plateforme unifiée de monitoring d’infrastructure. Sa récente conférence Dash 2020 (11-12 août), consacrée à la construction et à la mise à l’échelle des applications de prochaine génération, a marqué l’arrivée dans son offre des produits Continuous Profiler et Error Tracking. Le premier vient mesurer de façon continue la performance du code des applications lorsque celles-ci sont en production, tandis que le second, qui lui est intégré, agrège en temps réel les erreurs remontées des dites applications et les présente aux équipes d’ingénierie sous la forme de problèmes exploitables. Parmi les autres annonces importantes de Dash 2020 figure Incident Management. Lorsqu’une entreprise gère couramment des dizaines de milliers de serveurs, pas une journée ne se passe sans incident. La rapidité avec laquelle ces incidents seront résolus dépend beaucoup de la façon dont les équipes vont pouvoir les prendre en charge. Dans ce contexte, il est primordial de disposer d’un workflow de gestion d’incidents efficace, complété d’outils intégrés et de canaux de communication directs. C'est que Datadog apporte avec Incident Management. Par la suite, l’analyse de la panne permettra de la décrire, documentation à l’appui, afin d’éviter qu’elle ne se reproduise.

Précédemment, la gestion d'incidents se faisait à l'extérieur de Datadog. Désormais, la solution apporte une interface centralisée de suivi des incidents qui bénéficie de fonctionnalités renforcées dans l’app mobile de Datadog et dans l’app de messagerie instantanée Slack. Elle dispose également de notebooks collaboratifs pour la coopération des équipes. Il est ainsi possible sans quitter Datadog, d’effectuer un tri des problèmes, d’enquêter sur les causes qui les ont provoqués et, une fois la panne résolue, de rédiger la documentation associée.

Les utilisateurs de Datadog pouvaient déjà partager des données via Slack. Maintenant, ils peuvent le faire depuis Datadog, sans quitter la fenêtre de discussion. (Crédit : Datadog)

Cette analyse post-incident associée à des documentations « post-mortem » est essentielle pour réduire le nombre et la durée des incidents. Datadog a revisité ses notebooks pour supporter une édition collaborative en temps réel des rapports d’incidents, explique l’éditeur dans un billet. Le notebook va également permettre de pré-générer le post-mortem. Il est maintenant possible d’ajouter des graphes de métriques interactifs pour fournir une aide visuelle. Ces graphiques supportent toutes les sources de données de Datadog et peuvent porter sur des plages horaires spécifiques afin de pouvoir visualiser un point précis durant l’incident. Le produit Incident Management est actuellement dans sa version bêta publique. Il est possible de le tester gratuitement pendant 14 jours. La préparation de fonctionnalités complémentaires est en cours.

La documentation post-mortem permet de fournir les différentes étapes pour résoudre un problème s'il se représente. (Crédit : Datadog)

Les mauvaises configurations, des portes ouvertes pour les attaquants 

La conférence Dash a également donné lieu à une autre grosse annonce, celle de Compliance Monitoring. Aujourd’hui, la plupart des attaques de sécurité que subissent les entreprises - et elles sont de plus en plus nombreuses - sont liées à des questions de gouvernance et de conformité, principalement dues des problèmes de mauvaises configurations, nous a rappelé lors d’un entretien Renaud Boutet, vice-président, responsable de la gestion produits chez Datadog. Les équipes de GRC (governance and risk compliance) travaillent souvent de façon isolée. Il faut mettre dans la boucle les équipes DevSecOps. Le rôle de Compliance Monitoring est de surveiller en permanence les environnements de production afin d’identifier les mauvaises configurations qui entraînent des dérives sur la conformité. Dans son fonctionnement, le logiciel va d’abord vérifier la configuration des services cloud. Il va ensuite utiliser l’agent de collecte FIM (File Integrity Monitoring) de Datadog pour récupérer des informations de configuration sur les serveurs et containers. Certains fichiers ont une importance fondamentale pour les équipes opérationnelles sur les serveurs, ils seront examinés en priorité.

Compliance Monitoring va ensuite notifier les défauts de configuration aux développeurs et aux ingénieurs responsables de la fiabilité des sites afin qu’ils puissent y remédier. Le produit bénéficie du renforcement de l’agent de collecte FIM qui surveille le fonctionnement des containers, des clusters Kubernetes et des systèmes hôtes. Une interface Wysiwyg permet aux utilisateurs de constituer leurs politiques de sécurité et de dresser leur tableaux de bord de reporting, l’objectif étant de prévenir les intrusions dans les systèmes d’information dont la fréquence ne cesse actuellement de se renforcer. Ces derniers jours, sur la scène internationale, les annonces de piratage d'entreprises, d’attaques par ransomwares et de vol de données se succèdent à un rythme accéléré. Parmi les dernières victimes figurent le croisiériste Carnival, le groupe agro-alimentaire MOM (Materne et Mont-Blanc), le fournisseur de boisson Jack Daniel’s, le fournisseur de services d’énergie Spie Group, mais aussi les groupes IT Canon, LG, Xerox et Cognizant

Une marketplace pour des applications reposant sur Datadog

La dernière annonce d’importance de Datadog sur sa conférence Dash porte sur l’ouverture d’une marketplace d’applications qui permettra aux membres de son réseau de partenaires, Datadog Partner Network (DPN), de développer et vendre des logiciels et des intégrations basées sur sa technologie de monitoring de performances. Cette marketplace est accessible au sein de la plateforme Datadog. Parmi les premières applications disponibles figurent Fairwinds Insights (qui donne une visibilité sur la validation du déploiement des containers et l’optimisation des coûts), celle de RapDev étendant les capacités de monitoring d’Office365, ou encore une intégration avec la plateforme Anypoint.