Pourriez-vous présenter dans les grandes lignes le groupe Adeo et son projet de transformation numérique Common Digital Platform ?

Giovanni Clément : Adeo réunit 130 000 collaborateurs à travers le monde. Il est leader sur le do-it-yourself avec une orientation forte sur l’éthique écoresponsable, ce que nous appelons le make-it-positive et qui se ressent à travers toutes les filiales du groupe dont Leroy Merlin, Zôdio, Weldom. Le retail se transforme. Cest bien sûr exacerbé par la crise mais, depuis quelques années, les leaders réinventent la façon de consommer ou, si lon parle de lhabitat, de se projeter dans la réalité virtuelle en montrant, par exemple, comment une cuisine va rendre chez soi. Le but dAdeo, cest donc de créer une expérience complète. Si vous voulez construire une maison, faire des plans, du câblage électrique, de la décoration, monter une cuisine ou un salon, cela consiste à offrir la capacité de gérer lentièreté de votre projet avec différentes filiales. Leroy Merlin est axé sur le bricolage, Zôdio sur la décoration, etc. Dans cette réinvention du retail, il y a bien sûr le digital. A travers nos magasins, nous faisions du physique first et nous souhaitons homogénéiser un parcours qui démarre sur le web et trouve sa continuité dans les lieux de vente avec lexpérience physique. Cest extrêmement important de ne pas perdre un client entre les deux. La principale vertu de notre projet de digitalisation Common Digital Platform, cest donc dinfluencer de nouvelles méthodes de consommation dans le do-it-yourself et daccélérer la façon dont on utilise le digital dans le retail. 

Dans ce contexte de migration vers le cloud dune partie des applications, vous avez mis en place un projet dobservabilité du système dinformation reposant sur la solution de Datadog.

Lobservabilité, cest très important pour nous. Cest ce qui nous permet de réagir très rapidement, ou de réduire notre temps de réaction face à un événement qui peut être critique, de type technique : une application qui tombe, un problème de réseau, etc. Cest donc avoir la capacité didentifier très vite ce problème et disposer des bonnes informations pour le résoudre dans un temps très court, ou qui minimise limpact pour le client. Il y a également une intention très forte de lier tout ce quon peut observer techniquement et de lapporter aux métiers, de le vulgariser pour les métiers. Non pas pour avoir dun côté, le métier qui utilise les métriques métiers et de lautre, la technologie qui utilise les métriques technologiques, mais pour avoir un groupe qui corrèle tout cet écosystème de métriques pour le client. Que signifie un problème technique pour les métiers ? Principalement, un impact pour le client qui sera mécontent. Dès lors, comment passe-t-on dun modèle réactif à un modèle anticipatif ? La mise en place de cette stratégie nest pas uniquement laffaire de la technologie, mais celle de tout le monde. Comment le métier va influencer lutilisation de la technologie pour pouvoir anticiper et faire de la technologie pour le client? Cest lamorçage des préceptes que lon peut voir dans le product management. Sur lobservabilité, cela concerne la manière dapporter les chiffres aux métiers pour que lon ait un groupe qui fonctionne de façon centrale, comme une équipe. 

Quel est le périmètre applicatif concerné par les outils mis en place ?

Nous observons tout ce qui peut être observé. Les incidents le sont à partir de métriques brutes qui ont besoin d’être exploitées pour apporter de la valeur. Par exemple, le MTTR, mean time to recover, cest-à-dire le temps moyen de réaction à partir dun événement jusqu’à sa résolution. Typiquement, une métrique MTTR, cela parle uniquement à un technicien. Par contre, lamener aux métiers, cest ce qui fait sa réelle valeur. Nous monitorons tout ce qui peut l’être. Cest l’émergence du site reliability engineering, mouvement du SRE initié au départ par Google mais qui est l’évolution de la façon de faire des opérations, en lien avec les métiers. Globalement, nous monitorons les applications, les infrastructures, la qualité du réseau. On peut même parler de métriques business puisque, via le mouvement SRE, on va agréger des métriques qui expliquent ou décrivent quand une application est fonctionnelle, cest-à-dire quand ses métriques technologiques, de performance ou dimpact client sont bonnes. Donc, nous ne mesurons pas uniquement un indice de santé applicatif mais également des indices de performances métiers au sein de Datadog et lagrégation des deux fera que nous aurons vraiment un état de santé de la qualité de services proposée aux clients. Cest extrêmement important pour nous de suivre lensemble de la chaîne avec, au bout, la satisfaction client qui nécessite de réagir immédiatement sil y a des temps dattente, si une application est tombée, etc. 

Vous aviez déjà des outils dobservabilité avant dadopter Datadog. Sur quels critères votre choix sest-il opéré ?

Il y a plusieurs parties dans lobservabilité. Cela va de la collecte à la présentation, cest-à-dire la façon dexploiter ces données de façon visuelle. Nous avons déjà un partenariat stratégique avec Google sur le cloud qui nous permet de facilement récupérer des logs sur la partie stockage, avant exploitation. Nous stockons sur Big Query, du chaud et du froid. Le chaud, ce sont des logs avec une rétention particulière qui ont vocation à être exploités très rapidement et le froid, cest ce que nous archivons, ce sont des logs qui ont perdu leur valeur intrinsèque instantanée, mais sur lesquels nous souhaitons une historisation. Sur ces deux façons dexploiter les logs, on utilise différentes technologies. Et globalement ces logs sont transmis directement à Datadog pour une exploitation sur une semaine. Nous avons choisi cet outil pour exploiter facilement ce quon récupère de différentes sources et vulgariser. Datadog permet vraiment de travailler la datavisualisation. Nous avions besoin dun outil extrêmement puissant pour sortir toute la valeur de nos logs et les apporter de façon différente. Nous en récupérons énormément. Les logs peuvent sexploiter de différentes façons selon les personnes qui les utilisent. 

Les métiers vont souhaiter des métriques un peu orientées performances, des pourcentages qui agrègent dautres métriques, des indices qui peuvent être exploités au premier coup d’œil. Les équipes opérationnelles vont utiliser ces informations pour faire évoluer la plateforme. Elles ont besoin de métriques plus précises, par exemple, un pourcentage de disponibilité ne va pas leur servir, elles vont plutôt parler de « budget derreur » qui est aussi une notion de SRE, travailler 

la marge derreur pour, soit prendre des risques ou tout simplement veiller à ce que la plateforme respecte notre promesse et le niveau de services. Datadog le permet. Ce qui est très appréciable, cest quavec les mêmes métriques, on peut facilement agréger et déterminer des scénarios. Et on arrive facilement à corréler différents personas dutilisation de loutil.

Quelles sont les fonctionnalités Datadog que vous utilisez ?

Principalement, le Live Tail. Nous voyons passer les lignes de logs brutes en réalisant, au-dessus, une analyse multidimensionnelle où lon choisit des filtres, par applicatif, par rapport à une zone - EMEA ou mondiale - ou un type denvironnement, que ce soit en préproduction ou en production. Il y a aussi des fonctionnalités sur la génération dincidents, autour des Health Check, des tests synthétiques qui répondent à des seuils, qui vont solliciter les API d’état de santé des applicatifs. Nous utilisons aussi la capacité de sintégrer à différentes sources de données, un point très important. Et nous prenons du temps pour tester les nouvelles fonctionnalités qui sortent régulièrement, voir comment on peut faire évoluer nos façons de faire, ce qui ne veut pas dire que nous allons tout utiliser. Ce qui est aussi appréciable chez Datadog, cest quils présentent de nouveaux usages.

Avez-vous déployé tout ce que vous aviez prévu dans le projet ?

Le scope initial portait sur notre chemin critique e-commerce qui est maintenant quasiment couvert. Nous avons des projets dexpansion. Je fais partie dun groupe qui écoute énormément le collectif. Le choix de Datadog a été impulsé par mes équipes, mais son adoption est propre aux équipes qui vont lutiliser. Et ça, cest extrêmement important. Pour le pousser plus loin, japporte énormément dattention à ce que ce produit soit utile pour les équipes, donc petit à petit, nous le testons auprès dautres équipes. 

Pour que loutil soit adopté largement ?

Oui. Nous ne sommes pas sur du top down, mais sur le respect du choix des technologies et des outils. Nous avons un plan dexpansion bien plus large quune seule plateforme e-commerce, sur dautres plateformes, dautres filiales et dautres plaques mondiales. Aujourdhui, le projet est opérationnel en France et testé dans dautres pays. Nous venons tout juste de finir une migration très structurante et de passer notre site LeroyMerlin.fr entièrement dans le cloud. Bravo aux équipes. Cela nous a énormément aidé à préparer cette migration pour quelle soit sécurisée, pour avoir la vision nécessaire pour maîtriser entièrement le périmètre. Nous lavons réussie avec quasiment aucun impact pour le client durant toute cette migration.

Quelles sont les difficultés que vous avez pu rencontrer dans la mise en place de loutil ?

Parmi les points délicats, il y a laspect FinOps, cest-à-dire la capacité à gérer la croissance financière de services qui sont sur étagère. Cest très facile de dépasser des projections de consommation, surtout dans les logs. Dans notre transformation cloud, la maîtrise de cette nouvelle discipline quest le FinOps est donc un enjeu majeur. Il sagit de contrôler la consommation des ressources cloud.

Un contrôle financier ?

Ce nest pas uniquement une question de finance, il sagit aussi d’éco-responsabilité. Même si le serveur nest pas à côté de nous - nous avons des datacenters en propre - et quil est ultra facile de consommer une ressource dinfrastructure chez notre cloud provider, on doit être sensible à limpact écologique derrière. Ce nest pas parce que cest chez Google ou chez dautres que le serveur na pas dempreinte carbone, dempreinte résiduelle. Il faut être sensibilisé sur limpact de consommation dune infrastructure. Le FinOps, cest un peu la corrélation entre les deux. Cest la maîtrise de notre croissance dun point de vue financier, avec une résultante écoresponsable. Dès que nous avons utilisé Datadog, nous avons pulvérisé nos seuils de consommation en envoyant tous les logs et puis nous avons compris. Nous sommes passés dune solution historique propriétaire, gérée avec les stacks ELK (Elasticsearch, Logstash et Kibana) que nous maîtrisions et stockions chez nous, avec des coûts dinfrastructure noyés dans la masse. Alors quavec le business model de Datadog, nous payons à lunité de consommation. Il y a différentes unités de consommation et lon voit vite les coûts grimper. Nous avons bien été accompagnés sur ces aspects. Mais, au début, lorsque nous avons envoyé vers Datadog le même flux que nous recevions en interne sur nos technologies propriétaires, nous nous sommes rendu compte que ce n’était plus possible. Et cest très bien, parce que cela nous a sensibilisés : est-ce nécessaire de tout logger, le niveau dinformation envoyé est-il le bon, comment lajuster ?

Pouvez-vous donner un exemple ?

Par exemple, la rétention qui est le sujet majeur de tous les clouds providers qui fournissent une solution de logs, la rétention à chaud, donc le temps de stockage dun log à chaud qui doit être exploité très rapidement, cest ce qui coûte le plus cher en fait dans ces solutions-là. Nous avons regardé ce que ce que cela changerait de passer dun palier à un autre, disons de 14 jours à 7 : quel impact sur les équipes et sur le coût. Et on sest aperçu que pour nos réactions à chaud, notre travail, notre maturité actuelle, nous navions besoin par exemple que de 3 à 5 jours de logs. Parce que c’était la fenêtre qui nous permettait dexploiter facilement et avec rétro-action des logs ou des événements qui nous parvenaient. Il ny avait donc aucune utilité de le faire à 14. Donc en soi, cest bien, parce que cela nous présensibilise à faire attention et à consommer uniquement ce qui est nécessaire. Je pense que quasiment toutes les entreprises qui se transforment dans le cloud doivent considérer cet aspect financier qui, forcément, a déraillé à un moment et qui redemande un peu de structure.

Lutilisation de ce type doutils permet dajuster ses coûts ?

Oui, cest justement lune des nouvelles fonctionnalités qui apporte une vision un peu plus centrée sur la consommation, par exemple selon le provider. Cela permet de savoir si lon a trop consommé ou pas. En fonction de lutilisation du CPU, de la RAM, des indices de consommation dun serveur, de savoir si on sursollicite ou pas. Si on le sous-sollicite, peut-être quon surconsomme. Donc, réduire soit la taille, la puissance si cest une VM, peut-être réduire la résilience, le nombre dinstances déployées, ce genre de choses. Et cest très utile. Dailleurs, Datadog automesure lui-même sa consommation.

Quels sont les bénéfices constatés après la mise en place de ces outils ?

Il y en a beaucoup. Lun des plus importants, cest de faire travailler des équipes ensemble. En fait, initialement, la façon dont on faisait de lobservabilité silotait la visibilité que lon avait de notre patrimoine applicatif. Chaque équipe produit avait sa propre façon de faire. La valeur que lon a, qui résulte aussi de lADN dAdeo, cest que lon travaille ensemble. Donc, les informations dune équipe intéressent les autres. Surtout si un produit est interdépendant. Cest extrêmement important de prôner cette transparence. Si un produit a des problèmes de qualité de service, on ne va pas partir dans le blâme. Cest au contraire extrêmement intéressant davoir cette information pour influencer lengineering et travailler le côté fault tolerant du produit. Se dire que si cette dépendance travaille sa qualité de service, on peut avoir potentiellement des impacts sur notre promesse et quil faut donc renforcer cette partie. Ça a vraiment une implication intrinsèque sur la manière dont on utilise la technologie au sein des produits. Donc, vraiment, la vertu que lon a trouvée porte sur la manière de faire de lobservabilité. Toutes les données atterrissent sur le même outil, chacun peut faire son propre dashboard et écouter les métriques de lautre. Et pour nous, qui supervisons lensemble des plateformes, cela nous permet de faire des dashboards avec différentes granularités de vues, très simplement. Par exemple une vue high level de la plateforme, de sa disponibilité, une vue par domaines, une vue par produits, et tout le monde dispose dune vue à 360 degrés de ce qui se passe et pas uniquement silotée par produits. 

Compte tenu de lexpérience acquise, quelles recommandations faire à des équipes souhaitant mettre en place une solution dobservabilité ?

Lobservabilité, ce nest pas uniquement une notion technologique, même si elle sert principalement la technologie. Il doit y avoir une vraie prise en compte de lorganisation globale, de tous les types de métiers, de leur rôle. Nous sommes en plein milieu dune transformation digitale. Je pense que beaucoup dentreprises le sont et cela demande une certaine maîtrise. Premièrement parce que ce qui peut se passer demain - on la appris avec la crise - peut être nouveau, et très disruptif. Il faut bien observer ce quon fait, bien se connaître et bien connaître notre capacité à faire. Quand on parle des métriques, ce nest pas uniquement un état de santé, ça peut être le rythme de delivery, des métriques orientées agile, ce peut être nimporte quoi, mais il faut avoir, avec des chiffres, une vision très claire de ce qui se passe. Il faut aussi connaître limpact de nos actions. Cest très important dans une période où les nouvelles générations travaillent principalement par le sens. Sil ny a pas de sens, on perçoit vraiment un frein majeur, une démotivation, une perte de passion. Et lobservabilité, cela permet aussi dapporter du sens. Nous sommes dans une phase de transformation digitale où lon doit embarquer une équipe. La stratégie dobservabilité concerne donc tout le monde : le top management, le middle management, les développeurs, les products owners, le product management. Cela va aussi participer à la performance des personnes en magasin puisquon leur fournit également des outils. Il doit y avoir une sensibilisation, une prise en compte et surtout un pilotage. La deuxième chose, en parallèle, cest de bien veiller à maîtriser la façon dont on observe. Encore une fois, il y a beaucoup de façons dobserver. On peut être très précis, très granulaire, et on peut être aussi très global. Il faut veiller à la consommation, ne pas trop logguer par rapport au niveau dinformations que lon veut en retirer. Il est très facile de pulvériser un budget avec ce genre doutils, comme avec tout outil dans le cloud.