Pourriez-vous nous exposer le contexte dans lequel le projet One Colas Data s’est mis en place au sein du groupe Colas ?

Philippe Toublant : Le groupe Colas est une filiale du groupe Bouygues qui intervient dans les travaux de construction et d’entretien de routes pour les 3/4 de son activité. Il intervient également dans la production et le recyclage de matériaux de construction, construit des bâtiments, fait de la récupération de bâtiments que l’on déconstruit et nous avons une activité de carrières et de production d’enrobé, ce qui représente 15 à 18% de l’ensemble. Une activité de mise en place de chemins de fer pèse à peu près 10% et nous avons aussi un peu de transport d’eau et d’énergie. Le projet One Colas Data s’inscrit dans un projet plus global de One Colas. Le groupe Colas est très décentralisé avec de très nombreuses filiales, plus d’une centaine, dans une cinquantaine de pays. Nous avons donc des systèmes d’information indépendants et il y a eu depuis 3 ans des programmes pour faire un One Colas Plant pour tout ce qui est industrie, un One Colas Quarries pour tout ce qui est carrières, un One Colas Bitumen, pour toute l’activité bitume, etc. Afin d’aider ces projets de consolidation et de centralisation des activités pour une meilleure efficience opérationnelle, il a été demandé à Colas Digital Solutions de monter le programme One Colas Data pour consolider également les données de ces différentes activités et les aider à se structurer.

Quels sont les cas d’usage couverts ?

Le programme One Colas Data a pour but premier la constitution d’un patrimoine de données, un référentiel central pour améliorer la qualité des données que l’on collecte et les consolider sur le monde entier sur les nombreuses filiales. Cette plateforme unifiée va permettre de soutenir l’innovation et la transformation des entreprises du groupe. C’est le 1er objectif. Le 2ème, c’est de générer des insights pour le métier, qui seraient exploitables et opérationnels, créer des KPI et des tableaux de bord agrégés pour que ceux qui ont une vision mondiale ou locale d’une zone puissent avoir la remontée de l’activité de façon centralisée. Que l’on puisse partager les mêmes tableaux de bord dans différents pays, afin que, quand on fait une analyse en central, on retombe sur les données que le local a dans ses propres tableaux de bord. Le 3ème objectif, c’est de  construire des modèles prédictifs et développer l’intelligence artificielle dans un domaine où elle est encore très peu utilisée, par exemple, les prévisions de vente et de production, la maintenance prédictive, l’analyse d’images ou de texte. 

Comment le projet s'est-il déroulé ?

Dans un premier temps, nous avons réalisé des interviews auprès des différents sponsors des projets métiers, que nous appelons des business process leaders. Nous avons ensuite engagé des programmes avec chacun d’entre eux, par plaques géographiques. La France avec les carrières, puis la plaque africaine, l’Europe, les USA ou le Canada, en fonction de la disponibilité des métiers. Mais en amont, nous avons aussi structuré un certain nombre de référentiels, l’ensemble de l’organisation du groupe Colas, collecté l’ensemble des employés du groupe, consolidé des référentiels sur les fournisseurs, etc.

Quels sont les critères qui ont amené Colas à retenir un environnement cloud et la plateforme de Databricks ? Aviez-vous des contraintes à prendre en compte sur ce projet auxquelles les technologies choisies répondaient ?

Nous avons fait le choix de la plateforme cloud de Microsoft Azure avec des composants qui sont Databricks et de l’open source. Nous avons choisi cette composition de plateforme pour des raisons de scalabilité. Nous n’avons pas une idée précise du volume de données que l’on va traiter, nous savons juste qu’il augmente en parallèle, voire plus vite que notre projet. Actuellement, nous gérons 150 Go de données par jour avec une plateforme de 50 To qui contient un an et demi de projets. Des assets comme la vidéo n’y sont pas encore. Ils vont faire croître très vite la volumétrie. Nous avions aussi un besoin de time to market. En partant sur du cloud et sur des technologies qui sont déjà en place comme Databricks, certaines choses sont utilisables dès maintenant. S’il avait fallu que l’on monte une plateforme nous-mêmes, nous aurions été beaucoup plus lents sur ces sujets-là. Et puis, c’est un monde qui bouge très très vite. Là, on n’a pas besoin d’être aux aguets tout le temps car on est en mode push sur les nouvelles technologies, les outils sont déjà mis à jour, on les voit arriver. Databricks nous permet de disposer d’un environnement distribué, d’un outil collaboratif simple pour partager les notebooks, les dossiers de code informatique de nos développeurs écrits en Scala ou en Python. Nous savons allumer et éteindre très facilement des clusters Hadoop et nos data scientists et data ingénieurs sont indépendants pour monter la plateforme quand on en a besoin. Cela nous permet aussi d’être sur une optimisation de nos coûts puisqu’on allume nos serveurs lorsque c’est nécessaire et on les éteint ensuite.

Avez-vous examiné d’autres plateformes de gestion de données ?

Oui, nous avons regardé des briques open source. J’essaie de conserver un équilibre entre des solutions open source et des solutions éditeurs. En termes d’innovation, l’open source va quand même très vite, on essaie donc de garder nos deux pieds sur les deux technologies. Nous avons aussi regardé les plateformes Amazon et Google. Dans le groupe Bouygues, nous sommes plutôt Microsoft native et notre plateforme est au niveau des autres. On pourra toujours trouver des endroits où elle est en avance et d’autres où elle est en retard. Concernant Databricks, nous étions partis au début sur des choses que nous avions faites nous-mêmes autour de l’open source et nous avons essuyé quelques plâtres. Nous avons été pragmatiques en basculant sur une solution beaucoup plus professionnelle qui nous a fait gagner du temps.

Quelles sont les applications déjà déployées dans le cadre de One Colas Data ?

Des applications ont été déployées autour de la gestion des équipements, le suivi de nos carrières d’extraction de granulat. Nous avons fait des applications autour des sites et des localisations de nos infrastructures immobilières et de chantiers. Ainsi que des outils autour de la gestion de nos employés, du bitume et de l’analyse financière. Concrètement, pour prendre des exemples, sur la gestion des équipements, une application regroupe maintenant l’ensemble du parc équipements mondial du groupe Colas, soit plusieurs centaines de sociétés différentes dans 50 pays. Cela fait donc 50 000 équipements qui sont référencés dans la plateforme et sur lesquels on a l’ensemble de la vie de l’équipement, son âge, etc. Opérationnellement, cela nous permet de pouvoir benchmarker le taux d’utilisation de nos équipements. Le directeur matériel d’une zone peut voir comment ils sont utilisés dans les différentes usines, dans les différents chantiers qu’il a dans son périmètre, savoir si un équipement est sous-utilisé et essayer de comprendre pourquoi. Les règles de gouvernance de nos équipements sont maintenant mieux partagées. C’est l’un des premiers bénéfices. Par ailleurs, le fait de disposer du patrimoine de tous les équipements va permettre au service achat de mieux pouvoir piloter ses investissements d’équipements parce qu’il a la photo claire de ce possède le groupe, il va pouvoir centraliser les achats et aller vers les bons fournisseurs en fonction de l’obsolescence de notre parc. Parmi les autres bénéfices, on peut également piloter l’ensemble de l’achat du bitume du groupe Colas, ce que l’on ne savait pas faire simplement et de façon aussi fréquente auparavant. Nous savons maintenant combien nous achetons à l’ensemble de nos fournisseurs, de façon globale. Pour les acheteurs, c’est une force.

Les profils des utilisateurs qui accèdent à la plateforme sont-ils techniques ou métiers ?

Pour faire vivre la plateforme, il y a directement dans mon équipe des data architectes, des data ingénieurs et des data scientists. Nous avons des data analystes qui vont être un peu dans les différents métiers, donc au niveau de la finance, des ressources humaines, de la filière équipement, de la filière quarries, de la filière bitume. C’est le 1er set et puis derrière, nous avons le responsable local des équipements de la zone US, le responsable de la zone Canada, celui qui s’occupe des différents pays européens, celui qui est à Madagascar… L’outil est partout dans le monde. Nous avons maintenant sur ces plateformes, si l’on prend les différentes applications, plus de 3000 utilisateurs qui sont des utilisateurs locaux : chantiers, responsables d’équipement, responsables de carrières, responsables de sites et directeurs achat.

Avez-vous rencontré des difficultés techniques ou d’organisation au cours du projet ? Comment les avez-vous résolues ?

Sur la partie gestion de projet, la difficulté que nous avons particulièrement rencontrée, c’est que l’on s’attaque à un projet piloté depuis la France et qui adresse une cinquantaine de pays avec, pour schématiser, dix grandes équipes informatiques. Il faut déjà que notre roadmap projet s’inscrive dans les roadmaps locales. C’est assez complexe à gérer car tout le monde n’est pas disponible au moment où l’on veut arriver. C’est le premier gros challenge que nous ayons eu à relever. Il y a ensuite un problème de culture et de langue : d’une part une équipe française, de l’autre, des équipes hongroise, américaine, canadienne, etc. Il a fallu faire cette coordination dans les différents pays. Et puis, nous avons dû faire face à l’hétérogénéité de notre système. Par exemple, pour avoir la carte des employés Colas dans un seul réceptacle, il a fallu que l’on s’attaque à 54 systèmes RH du groupe qui vont des ERP classiques très structurés du monde Oracle, par exemple, à des systèmes SaaS sans référent IT pour lesquels il a fallu trouver l’éditeur et lui faire modifier son export afin d’accéder à nos données, jusqu’à des systèmes qui sont gérés en FM parce qu’il n’y a qu’une dizaine d’employés et, dans ce cas, il faut aller chercher avec des robots ce fichier sur un espace partagé. Les deux grandes difficultés ont été celles-là : l’hétérogénéité des systèmes et un projet monde qui doit approcher plusieurs dizaines de personnes dans différents endroits. Pour y faire face, il faut communiquer, faire de l’animation de projet de façon intensive, s’assurer d’un sponsorship fort et présent et être sûr de disposer d’une équipe expérimentée sur les technologies déployées.

En particulier sur le volet plateforme de données ?

Je suis arrivé dans le groupe Colas début 2019, j’avais monté une plateforme semblable dans le groupe TF1, sur la partie technique, je savais un peu où j’allais, j’avais déjà créé des partenariats avec des sociétés dont Databricks, Azure, notre prestataire Open Value. Quand on a démarré la plateforme chez Colas, nous avions quelques certitudes sur les technologies, mais nous avons dû mettre plus de Databricks qu’avant parce que cela nous semblait beaucoup plus efficace, nous avons fait quelques changements sur notre système de stockage car nous étions dans un contexte monde alors que le précédent projet n’y était pas. Sur la partie techno, nous étions un peu plus à l’aise parce que nous avions déjà fait ce chemin-là précédemment avec le partenaire OpenValue. Je suis venu avec à peu près les mêmes équipes, sur la partie gestion de projet et d’équipe, côté Colas Digital Solutions, nous savions déjà de quoi nous parlions. C’était beaucoup plus simple. Il a fallu embarquer des personnes de l’IT Colas et faire grossir l’équipe pour avoir cette vision monde. 

Quelles sont les particularités des technologies utilisées que votre expérience d’utilisation vous fait apprécier ?

Avec cette technologie, nous pouvons allumer et éteindre des clusters et camoufler un peu la complexité que serait la mise en service de technologies Hadoop distribuées MapReduce. Cela permet par exemple à un data scientist quand il a un modèle de prévision sur les ventes, de facilement mettre en place son modèle et d’être en pré-industrialisation sans être obligé de travailler avec un data engineer qui va l’aider à acquérir des données de façon quotidienne, etc. Donc, c’est vraiment un gain appréciable. Je vois que l’efficacité de mes équipes est meilleure que lorsque l’on essayait d’allumer nos serveurs seuls comme j’ai pu le faire par le passé. De même, lorsque nous avons été en télétravail avec la possibilité de partager des notebooks de façon institutionnalisée sur la plateforme cloud. Je n’ai pas eu d’arrêt de service. Nous avons eu en gros deux jours d’atermoiements le temps que l’on sache se trouver pour réorganiser les meetings en visio. Mais techniquement, cela n’a pas posé de problèmes. Et cela, c’était parce que nous étions déjà dans ce monde cloud avec du partage aussi bien autour de Databricks que de Azure Devops de Microsoft, c’était 100%. Donc, nous avions une équipe qui peut être basée n’importe où et cela a été le cas pendant cette période. Cela fonctionnait très bien.

Quelles réflexions jugeriez-vous utile de partager avec d’autres entreprises qui prévoient d’engager ce type de projet ?

Je pense qu’il y a encore une forme de réticence autour du cloud dans certaines structures ou entités qui pensent que le cloud est cher, qu’il n’est pas sécurisé. Ceux qui le croient souvent n’ont pas fait l’effort de regarder ce qu’était le cloud. Pour moi, c’est un peu comme si une société décidait de ne pas utiliser de smartphones en disant ça coûte cher, ça peut être écouté. Il faut prendre en compte le monde dans lequel nous sommes. Beaucoup de nos jeunes pourraient ne pas comprendre que l’on ne soit pas dans le cloud, sur des technologies Hadoop, utiliser Python et Scala. J’ai des problèmes de recrutement. Heureusement que je suis sur les technologies les plus up to date parce que sinon, je pense que personne ne frapperait à ma porte. Mais quand je leur dis quelles sont les technologies que l’on utilise, les types de projets que l’on fait, ils commencent à regarder le groupe Colas avec des yeux plus intéressés. Il faut prendre en compte cela car il y a effectivement les problèmes de la GDPR et du Cloud Act à traiter, mais que l’on ne peut pas traiter au niveau d’une entreprise seule. C’est l’Europe qui doit prendre ce sujet en main et c’est important parce que l’on risque d’être coincés entre une solution américaine ou chinoise. Et pour notre indépendance, il faut peut-être avoir une alternative. Mais si les entreprises veulent être efficaces, si elles ne le font pas, elles se feront doubler par une entreprise américaine ou chinoise. 

Les problèmes de recrutement sont-ils les mêmes au niveau international sur les compétences informatiques ?

C’est compliqué de recruter des jeunes sur ces technologies-là qui ont en gros 5 ans. Il n’y a pas suffisamment de compétences en France. Il y a beaucoup de gens qui pensent connaître et qui ne connaissent pas. Ensuite, il y a une attractivité de sociétés nouveaux modèles, style Gafa ou start-ups qui fait que les sociétés plus classiques ont du mal à émerger auprès des plus jeunes.

D’où l’intérêt de technologies récentes qui attirent les talents

Exactement et le fait d’avoir des projets intéressants, de savoir les expliquer, de dépoussiérer ce que peut être dans la tête des plus jeunes des sociétés qui ne sont pas des start-ups.

Sur quels projets travaillerez-vous dans les prochains mois autour de la plateforme ?

Nous allons beaucoup travailler sur des projets à connotation environnementale. C’est le grand domaine sur lequel notre PDG veut travailler en 2021. Donc, économie d’énergie, meilleure comptabilisation de notre impact environnemental, un meilleur pilotage de notre consommation d’électricité, de gaz, de fuel. La comptabilisation de notre impact CO2, la gestion des risques climatiques sur nos sites ou sur nos employés. Ce sont des choses sur lesquelles on regarde comment on peut mieux piloter et diffuser l’information et peut-être faire de la prédiction autour de ces sujets-là.