BPCE Global Financial Services (GFS), anciennement Natixis, regroupe les activités de banque d'investissement et de grande clientèle du groupe BPCE. BPCE Infogérance et Technologies (BPCE-IT), la structure commune des filiales informatiques du groupe BPCE, exploite aujourd'hui une plateforme big data mutualisée, mise en place il y a huit ans, autour des solutions Hadoop d'Hortonworks, devenu Cloudera. Grâce à une solide communauté d'utilisateurs en interne, cette plateforme a évolué pour devenir une brique data centrale, servant plus de 120 cas d'usages métier. Florian Caringi, leader big data chez Natixis - BPCE SI et Stéphane Lecomte, directeur adjoint du département infrastructure socles serveurs chez BPCE IT, reviennent sur l'histoire de cette plateforme, ses atouts et ses perspectives.

« La réflexion data a démarré en 2014. L'enjeu était d'accompagner les métiers et de voir leurs cas d'usage. Il s'agissait déjà d'un enjeu stratégique et cela l'est toujours aujourd'hui », souligne Florian Caringi. Face au cloisonnement des données, Natixis souhaite bâtir une plateforme mutualisée, afin de répondre à des besoins variés, allant de la conformité à la détection des fraudes, en passant par la gestion des risques, le scoring ou la tarification. « L'objectif était de monter une plateforme autour des cas d'usages, pas d'attendre ces derniers avec une solution déjà en place. » Pour répondre à ces besoins, Natixis choisit de se tourner vers Hadoop. Il retient alors la solution d'Hortonworks, que Cloudera rachètera fin 2018. À la même époque, deux autres plateformes similaires sont également déployées dans le groupe, l'une pour les métiers d'assurance et l'autre au niveau groupe, pour accueillir des données de croisement sur les différentes activités. Sur la plateforme Natixis, les premiers cas d'usage concernaient le calcul de risques et de positions pour les traders. « Hadoop répondait bien à ces besoins, car il fallait chercher les données dans un grand nombre d'applications, avec des bases comme Sybase ou Oracle », explique Stéphane Lecomte. L'objectif était de centraliser les données, avec un enjeu de performance et une échéance courte pour la mise à disposition des chiffres. La technologie Hadoop a fourni la puissance et la scalabilité nécessaires. « Nous avons aussi refondu le modèle de collaboration, plus fin, pour répondre aux besoins réglementaires et métiers », ajoute Stéphane Lecomte.

Étendre la plateforme pour en multiplier le potentiel

Au fur et à mesure, la plateforme a évolué, tandis que les équipes montaient en compétences. « La plateforme répondait à des besoins de stockage et traitement de données en masse. En 2017, nous avions davantage de cas d'usage, mais pour pouvoir utiliser la plateforme, faire des proofs of concept, il fallait un profil de développeur plutôt que de data scientist. Nous avons ajouté une brique Indexima, afin de faire des datamarts accélérés pour les applications analytiques », relate Florian Caringi. L'équipe chargée de la plateforme a également déployé Informatica Big Data. « Nous avions de nombreux développeurs ayant fait de l'ETL. Passer au développement sur Spark et Python ne se fait pas du jour au lendemain, cela demande une montée en compétences. Le choix d'Informatica Big Data leur a permis de venir sur la plateforme », explique Florian Caringi. En 2020 et 2021, une partie opérationnelle NoSQL (MongoDB, Couchbase) et des outils de recherche basés sur le moteur d'indexation Apache Solr ont également été ajoutés, puis un catalogue de données basé sur la solution Zeenea. Enfin, de nombreuses fonctionnalités sont exposées via des API, pour permettre à des applications tierces, comme Tableau, d'attaquer la plateforme. « Il s'agissait de construire une offre plus globale. Tous ces outils multiplient les potentialités », souligne le leader big data. « Le but, quand quelqu'un arrive sur la plateforme, c'est de partager les données », ajoute Stéphane Lecomte.

Dès le début, une communauté Hadoop s'est constituée. Cette communauté se réunissait une fois par semaine, se souvient Stéphane Lecomte. Elle a donné un vrai coup d'accélérateur au développement des usages big data. « La communauté a démarré de façon assez informelle, autour d'une table un jeudi matin. Aujourd'hui il y a 600 personnes dans les listes, ainsi qu'un groupe Teams de 300 personnes », indique Florian Caringi. Certains résidents sont là depuis le début. Parmi les membres figurent des développeurs, des responsables de l'infrastructure, des utilisateurs métiers et des représentants de la sécurité. « La mutualisation des données soulevait inévitablement des questions de sécurité. Les développeurs ont beaucoup travaillé sur la gestion des accès, la mise en oeuvre de Kerberos sur le cluster et l'application des normes et bonnes pratiques en la matière », indique Florian Caringi. La communauté compte également des architectes data, qui occupent un rôle essentiel pour la découverte de nouveaux patterns pertinents, ainsi que des ingénieurs data, certains dont c'est la formation initiale et d'autres qui précédemment étaient développeurs et se sont formés, car ils avaient un background Python assez proche de l'univers big data. En revanche, si quelques data scientists sont présents, ils restent peu nombreux, car la plateforme n'a pas été conçue pour des cas d'usages analytiques. « Les data scientists sont plutôt du côté des utilisateurs, ils nous rejoignent à travers les smart notebooks », indique le leader big data. Enfin, l'éditeur fait également partie de la communauté, une présence qui s'est révélée précieuse durant le rachat.

Continuité dans l'accompagnement

Entre les différentes phases d'évolution de la plateforme, Cloudera a en effet fait l'acquisition d'Hortonworks. « Avec la fusion, nous avons attendu un peu pour vérifier la continuité technique. Le rapprochement a débouché sur des distributions mutualisées, chacune avec ses composants et un état d'esprit différent. Le chemin de migration était important pour nous, avec les nouvelles versions de Spark ou d'Hive », pointe Florian Caringi. Natixis a conservé les mêmes interlocuteurs tout au long de cette transition, sans rupture dans la relation. Cette continuité a été appréciée, car elle a permis aux équipes de discuter ouvertement, afin d'avoir des garanties de pérennité sur la solution et une visibilité sur la feuille de route. « Tout au long du rachat, nous avons gardé une présence de l'éditeur dans nos communautés big data. C'était important pour nous et pour eux d'entendre notre usage de la plateforme, c'est une transparence qui nous a permis d'avancer », estime Florian Caringi. « Nous avons entamé les migrations après. Sans cette communauté, cela aurait peut-être été plus compliqué », poursuit-il. Grâce à cet accompagnement, Natixis a choisi de déployer la stack de Cloudera, dont elle possède presque tous les modules. « Nous avons été accompagnés sur les upgrades. Il y a au moins une version majeure par an. En deux ans, nous avons fait deux montées de version (HDP2.6, HDP 3 puis CDP 7.1.7). Il n'y a pas eu besoin de réinvestir sur le matériel, c'était intéressant », indique Stéphane Lecomte.

Stéphane Lecomte, directeur adjoint du département infrastructure chez BPCE IT : « La même équipe d'infrastructure gère les trois plateformes. »

Aujourd'hui, environ 120 applications tournent sur la plateforme ex-Natixis, avec une pluralité de métiers. « Nous avons 125 bases de données différentes, ce qui représente 2,7 à 3 pétaoctets de données en production. Nous ingérons environ 1 Po par an et nous utilisons 5 Go par jour de données, mais nous avons bien entendu aussi des mécanismes de purge », décrit Stéphane Lecomte. Les trois plateformes Hadoop sont gérées par une même équipe au sein de BPCE IT, avec trois grands environnements par plateforme : développement, préproduction et production. Au total, les trois plateformes représentent environ 250 serveurs. « Pour celle de Natixis, nous gérons 156 serveurs de calcul, dont une cinquantaine en production, ainsi que des infrastructures de sauvegarde », précise Stéphane Lecomte. Les environnements sont hébergés sur des serveurs physiques standard (Cisco UCS) équipés de Linux Red Hat, répartis dans six salles pour assurer une très haute disponibilité.

Une hybridation en cours

Récemment, le groupe a entrepris de rapprocher ses différentes plateformes, dans le cadre de son plan stratégique 2021-2024 et de la réorganisation de ses activités IT et data. Un plan de convergence est en cours pour les activités de GFS (CIB et Invest) et de BPCE SA et Financement. « Notre rôle est toujours d'accompagner de manière transverse les DSI métiers, qui aujourd'hui peuvent également inclure les banques de retail du groupe », explique Florian Caringi. La communauté qui gère la plateforme pour les métiers d'assurance s'est récemment réarrimée à la communauté Natixis, même si les deux sont encore dissociées. « Avec la réorganisation du groupe, chacun partage avec les autres, tout le monde est convié, des retours d'expérience sont co-organisés. Nous sommes en train de faire converger les deux pour créer une cohésion au niveau du groupe », indique le leader big data. L'équipe vient également d'étendre la plateforme à l'international sur de premiers cas d'usage, en Asie depuis quelques mois et à New-York depuis un mois. « C'est la même installation, la même pile applicative », souligne Florian Caringi.

Sur le plan technologique, l'équipe a pour ambition en 2022 de déployer des services packagés par Cloudera et d'offrir des composants supplémentaires à travers la plateforme de conteneurs Red Hat OpenShift. « Nous disposons d'un big data mutualisé, qui offre une capacité de traitement avec des bornes minimum et maximum. C'est intéressant pour les traitements batch, pour partager les données, mais parfois nous avons aussi besoin de capacité de traitement à la demande. Nous réfléchissons à l'industrialisation, pour des usages de type datalab, et nous envisageons d'utiliser OpenShift pour proposer une capacité à la demande, notamment des notebooks », explique Florian Caringi. L'équipe envisage également la mise en oeuvre du streaming Kafka, pour des projets nécessitant une architecture orientée événements. Enfin, elle a engagé une réflexion autour du cloud, dans une optique d'hybridation. « Quand on veut un bon SLA, il faut une plateforme scalable et une maîtrise des coûts. Nous avons réussi à mutualiser la plateforme, mais il y a parfois des enjeux de montée en charge dans certains cas. Nous avons donc ajouté des couloirs d'hybridation », explique le leader big data. Avec OpenShift, déployé sur AWS, Natixis dispose déjà d'un modèle hybride de type cloud privé. Certaines briques complémentaires, comme Zeenea, sont également en mode SaaS sur AWS. Pour la data science, l'équipe commence à tester Azure ML, via un pont qui permet de mettre des données chiffrées dessus. Elle utilise également Power BI cloud services. « Nous regardons aussi ce qu'il y a sur Google Cloud Platform », ajoute Florian Caringi. « Nous continuons sur Hadoop, car nous avons aujourd'hui une plateforme évolutive, des assets data dont nous pouvons maîtriser les coûts, une bonne relation avec l'éditeur, une communauté et des data centers performants. Mais la clef de tout cela, c'est cette compétence d'infrastructure que nous possédons », souligne Florian Caringi.