Eau de Paris, entreprise publique qui produit, transporte et distribue l'eau de la ville de Paris, s'attaque progressivement à la mise en qualité de ses données. En mars 2021, elle a créé une équipe data de 4 personnes, pilotée par Kataryna Krcunovic, chief data officer rattachée à la mission sur la mesure de la performance et la maîtrise des risques de l'entreprise, qui dépend directement de la direction générale. Un de ses objectifs majeurs consiste ainsi à mettre en place des règles métier pour améliorer la qualité des data.

La recherche d'une plus grande qualité de données se traduit chez Eau de Paris par la révision de certaines pratiques de production des data ou par des changements de paramétrages des SI. Mais deux des importants projets qui ont occupé le service data dès le début a consisté à corriger en masse certaines données brutes. « Nous avions, par exemple, besoin de disposer de certaines informations juridiques concernant nos clients professionnels, précise la CDO, et de nous assurer de leur exactitude. Dans le cadre de la dématérialisation des factures, il convient de bien identifier si le client est un professionnel privé, et si nous disposons de toutes les informations qui seront nécessaires pour déposer les factures. Nous en avons profité pour effectuer une revue de la base et conforter la bonne identification des clients personnes physiques ». Eau de Paris avait également fixé en tant qu'objectif métier la fiabilisation des données patrimoniales et a donc repris aussi les données concernant certains de ses objets patrimoniaux.

Deux stratégies en fonction de l'usage de la data

Pour augmenter la qualité de ses données, Eau de Paris a appliqué deux types de stratégies différentes, en fonction de l'usage qui en est fait et de l'ampleur du problème de qualité. Lorsque le métier a besoin de la donnée, et qu'il ne s'agit pas juste d'obtenir une donnée de qualité en bout de la chaîne de traitement, l'entreprise a décidé de corriger directement les données brutes et ce, de façon massive. En revanche, lorsque le métier a besoin de la donnée brute, elle réalise des corrections ponctuelles après traitement. C'est le cas du volume d'eau produit, de la mesure de qualité de l'eau en temps réel ou encore de certains éléments de reporting, par exemple. « Dans ce cas, il est suffisant de corriger la data a posteriori, au niveau du reporting BI, par exemple, et non à la source », précise Kataryna Krcunovic.

« La correction de données brutes devait concerner 50 000 fiches de clients et 20 000 fiches d'objets patrimoniaux, poursuit la CDO. Nous dépassions donc largement le stade d'une correction à la main ». Pour les données clients, l'entreprise a développé un programme Python, qui compare les data avec la base Insee et identifie les écarts éventuels. Elle a défini des règles pour déterminer ensuite qui a tort et qui a raison. Ces données sont envoyées dans un fichier Excel, puis dans le logiciel de facturation spécifique au secteur concerné d'Eau de Paris. Pour la data patrimoniale, l'entreprise publique utilise un SIG, car le métier a besoin de connaître des informations sur la localisation du compteur, sur les matériaux, sur les dimensions des équipements, etc. C'est l'équipe data qui a piloté ces projets, associée aux métiers, pour identifier la donnée à corriger et définir les règles métiers, ainsi qu'à la DSI.