Référence de l'assurance-crédit et expert de la gestion des risques, Coface protège les entreprises contre les impayés et sécurise leurs transactions commerciales sur leurs marchés intérieurs et à l'export. La société, créée il y a plus de 75 ans, accompagne plus de 50 000 entreprises à travers le monde grâce à un vaste réseau international. « Nous les accompagnons dans leurs décisions de crédit et faisons plus de 10 000 arbitrages par jour », nous a exposé Samia Boujatioui, responsable du traitement des données, du data lake virtuel et de la data virtualization, au sein de Coface. La compagnie d'assurance, dont les données sont soumises à de fortes contraintes réglementaires, dispose d'une dizaine de référentiels data.

Il y a trois ans, Coface a défini une stratégie de valorisation de la donnée qui a démarré avec la mise en place d'un premier data lake. Notre volonté était de sélectionner une technologie qui nous apporte maniabilité des données et efficacité opérationnelle. Dans un premier temps, la question qui se pose et celle de conserver l'architecture existante dans l'entreprise - Coface utilise notamment des outils d'ETL - et de la compléter plutôt que de la refondre entièrement. « Nous voulions éviter le data lake classique », relate Samia Boujatioui. Plusieurs technologies et architectures sont alors examinées dont des outils de data virtualization. Ces derniers permettent d'accéder à une vue sur l'ensemble des données d'une entreprise sans devoir les répliquer au sein d'un référentiel. La plateforme de l'éditeur Denodo qui présente notamment des cas d'usage proches de ce que Coface souhaite développer dans le cadre de sa stratégie data est alors retenue.

Sur la plateforme, un premier datawarehouse virtuel est bâti avec les données contractuelles de Coface. « Avec un seul outil, nous avons pu mettre en place des solutions sur mesure de mise à disposition des données », explique Mme Boujatioui. Son expérience sur les outils de BI traditionnels lui fournit des éléments de comparaison sur l'intérêt de la technologie retenue. « L'outil Denodo permet de faire en partie ce qu'un ETL fait mais il ne le remplace pas. Cette solution convient pour les données opérationnelles qui ne nécessitent pas forcément une haute transformation. Ce besoin de datawarehouse était le cas d'usage idéal pour déployer une solution 100% données virtuelles », décrit-elle.

Un PoC bouclé en trois mois

Jusqu'en 2019, Coface s'appuyait sur un operational data store. Il a fallu mettre à plat le modèle de données. Toute la partie design et conception s'est faite avec Denodo. « Pour la prise en main de l'outil, il fallait absolument faire le parallèle avec le décisionnel classique pour comprendre comment aboutir à des KPI métiers. Denodo nous a permis d'avoir les différentes couches avec un seul outil », indique la responsable de la data virtualization. La couche basique est un miroir de l'ODS. « Il n'y a pas de redondance de données, pas de réplication, parce qu'on laisse les sources où elles sont et on les lit directement », détaille-t-elle en ajoutant : « Il y a un travail de cleaning pour obtenir des vues dérivées, préparer le modèle de données, puis mettre en place le modèle de données contractuelles pour mise à disposition ». Ce modèle est très complexe, pas en termes de volumétrie mais en termes de transformation, « car il y a beaucoup de produits cartésiens pour arriver à une ligne contrat », précise-t-elle. L'émission de chaque contrat englobe en effet plusieurs contextes, plusieurs conditions, d'où la complexité.

Avec la modélisation permise par la solution de Denodo, le Proof of concept, PoC [NDLR: preuve de faisabilité] est bouclé en 3 mois et il se transforme finalement en véritable projet. « Nous avons pu facilement réaliser la conception, le design, le test, etc. Et avoir un datawarehouse accessible en temps réel avec les données contractuelles », poursuit Samia Boujatioui. « Le coût est largement plus faible qu'un projet recourant à un ETL, à la mise en place d'univers, etc. Les modèles de données que nous avons constitués nous ont servi pour d'autres projets et nous avons pu brancher directement des vues applicatives et des vues reporting à Power BI pour la visualisation des données. »

Une vingtaine de cas d'usage

A noter qu'en cours de projet, une problématique est apparue sur la complexité d'une des vues applicatives, qui nécessitait près de 15 jointures avec, en termes de sourcing, des données issues quasiment de 15 tables ODS. « Pour cette vue, nous avons pu résoudre les problèmes de performances en activant le cache sur disque, qui est normalement orienté pour le calcul des KPI ». D'où la mise en garde de Mme Boujatioui. « Pour tout cas d'usage Denodo, il faut une étude de cadrage bien aboutie. Dès le début du projet, il faut pouvoir répondre aux questions sur la volumétrie, sur la nécessité d'historisation de la donnée ou pas et sur la haute transformation de la donnée ».

Après ce premier projet, qui devait convaincre les équipes sur l'intérêt de la virtualisation de données, d'autres initiatives se sont enchaînées. « A ce jour, nous sommes arrivés à une vingtaine de cas d'usage, bientôt 25. Ce qui a entraîné la création de notre data lake virtuel.».

Le data lake virtuel alimente le CRM

Avec le temps, le data lake est devenu source de données, la plateforme de Denodo se connectant aux différentes applications du marché, notamment dans le cloud. C'est le cas pour le logiciel de CRM déployé par Coface. « Le data lake l'alimente en données, ainsi que d'autres logiciels ». Ainsi, toutes les données contractuelles de l'outil de CRM viennent du premier datawarehouse virtuel Contrats. A l'inverse, le nouvel outil RH vient alimenter le data lake virtuel. Denodo collecte les données, les transforme et les met à disposition pour alimenter différentes applications locales et groupe. « Nous centralisons ainsi les données parce que la couche sémantique joue un rôle très important au sein de l'architecture de Data Processing. De cette façon, nous gérons la sécurité et les règles d'accès aux données et, surtout, le temps réel.

Pour l'équipe chargée du data lake virtuel de Coface, le prochain challenge porte sur la propagation des identités entre les systèmes consommateurs. Cela permettra d'automatiser une partie du processus d'accès aux données depuis les outils de data visualisation (PowerBI, SAP BO). Pour l'instant, l'octroi des droits nécessaires aux projets Denodo est géré via des groupes AD [Active Directory].

Les métiers incités à recourir au Data Catalog

Très vite - après de premiers use cases gérés sur une approche plutôt classique quant au rôle de l'IT - la stratégie de valorisation de la donnée conduit à responsabiliser les métiers et à les mettre dans la boucle dès le début des projets Denodo. « Nous avons un comité d'architecture en amont de chaque use case pour discuter du cadrage fonctionnel et technique des sujets et nous travaillons maintenant étroitement avec les métiers. Le product owner est impliqué à toutes les étapes de la mise en place du projet », indique Mme Boujatioui.. « Nous avions intérêt à avoir ce travail de collaboration avec les métiers. Depuis qu'elle est mise en place, nous avons battu des records en termes de delivery, fin 2021 et en 2022, grâce à cette bonne communication entre les différents intervenants ».

Pour l'instant, 80% des livrables des vues passent par des services web (API Rest, ODBC, JDBC). Dès qu'une vue est créée, un document est envoyé aux utilisateurs avec différents moyens d'y accéder. « Nous accompagnons les métiers en mode conduite de changement sur la consommation de cette donnée, mais au fur et à mesure des use cases, ils ont acquis une certaine maturité et vont regarder les données dans le Data Catalog, pour les recettes fonctionnelles notamment. Leur implication nous a permis de mieux cibler ce que nous donnons, la flexibilité de la technologie utilisée fait que les PoC sont réalisés très rapidement ». Avec la data virtualization, il y a moins de coûts d'infrastructure sur le stockage des données. Selon leur complexité, les PoC se montent en 2 jours (si les sources de données sont connues et déjà paramétrées) à 2 semaines si les formats de données ne sont pas encore pris en compte.

Pour installer la solution de data virtualization, l'équipe de production a été accompagnée par l'éditeur du logiciel. La formation à la plateforme Denodo a été rapide pour les équipes IT et les business analysts. « Sur la partie développement, la connaissance des outils d'ETL simplifie la prise en main », constate la responsable du data lake virtuel. Pour les business analysts, qui doivent pouvoir remonter le cycle de vie de la donnée à partir des KPI, une autre typologie de formation est nécessaire. Dans ce domaine, la plateforme apporte des fonctionnalités de Data Lineage qui permettent de remonter ce cycle de vie en un clic. L'ensemble des sources de données et des vues sont affichées sous une forme graphique. Pour chaque champ, on peut savoir d'où proviennent les informations. Le langage utilisé avec le logiciel, VQL, dispose d'une syntaxe similaire à celle du SQL.

Comprendre les données

Du côté des métiers, la formation portera sur le Data Catalog afin de pouvoir y rechercher toutes les vues disponibles. « En saisissant le nom du champ que l'on souhaite consulter dans le Data Catalog, on accède aux vues applicatives ou aux reporting associés. Il y a un outil de data visualisation, on peut mettre en place un filtre très facilement », décrit Mme Boujatioui en expliquant inciter les équipes métiers à ne pas se restreindre aux web services fournis pour consulter les vues applicatives mais à aller plutôt dans les données pour les comprendre.

« L'outil de data visualisation est très maniable, le risque pourrait être qu'il soit détourné et que l'on en arrive à créer des usines à gaz. Mais au sein de notre entité Data Office, nous étudions et validons les use cases éligibles ». Si un cahier des charges nécessite une grosse volumétrie de données avec reprise historique, il vaut mieux utiliser une autre technologie. « Nous ne poussons pas forcément à la virtualisation. On peut être amenés à proposer des schémas hybrides où Denodo est utilisé pour la partie gouvernance et la mise à disposition des données, tandis que l'on va se sourcer directement sur le datawarehouse physique existant ».

Briser les silos, centraliser la gouvernance, étendre le SaaS

Samia Boujatioui résume en trois points principaux les bénéfices du déploiement de la plateforme de data virtualization. Premièrement, la mise en place du data lake virtuel a permis de briser les silos, de faciliter l'accès à la donnée et d'en revoir le coût à la baisse. « Il faut savoir travailler de façon collaborative et flexible », rappelle-t-elle au passage. Le logiciel retenu présente l'avantage d'être assez intuitif, il requiert peu ou pas de formation. « Pour moi, c'est un point positif ».

Deuxièmement, sur les aspects de gouvernance, la responsable du Data Lake pointe l'intérêt de gérer la conformité et la sécurité des données grâce à cette plateforme centralisée. « Cela nous permet de réaliser plus rapidement et plus précisément les contrôles de conformité et les audits », souligne-t-elle en ajoutant que, par l'accès aux différentes vues via le Data Catalog, un système de purge de données RGPD a déjà pu être mis en place. Enfin, le 3ème point porte sur la simplification de la transformation SaaS/cloud de Coface à travers l'interconnectivité permise entre les nouvelles applications SaaS acquises et la plateforme de Denodo.