Depuis quelques années, de grandes entreprises utilisent des bases de données en graphes pour détecter la fraude. Le groupe La Poste travaille lui aussi sur le sujet, comme en témoigne un cas d'usage présenté par Bertrand Provost, son responsable produit data et IA, lors du Neo4j Graph Summit Paris, le 8 juin à Paris. Avec une approche originale, basée sur l'analyse et la comparaison de parcours clients transformés au préalable en vecteurs.

Présent sur l'ensemble du territoire français, le groupe La Poste compte 240 000 employés, qui assurent quatre missions de service public : le service universel postal, l'aménagement du territoire, le transport et la distribution de la presse ainsi que l'accessibilité bancaire. Il y a quelques années, le groupe a souhaité évaluer l'usage des graphes pour surveiller une application web sensible, en complément des solutions existantes de détection de la fraude, basées sur des approches déterministes. « Nous avons voulu mener cette expérimentation de façon indépendante, afin d'éviter les a priori, dans l'optique de voir si cela permettait de détecter des éléments qui n'auraient pas été vus autrement », explique Bertrand Provost.

Des millions de noeuds et relations

Pour ce projet, celui-ci a choisi d'analyser les informations techniques relatives au parcours des utilisateurs, en s'appuyant sur la technologie de Neo4J. Adresse IP, appareil utilisé, ainsi que quelques informations fonctionnelles forment un profil d'utilisateur. Parmi les données disponibles figurent également des éléments permettant d'identifier les fournisseurs d'accès Internet. « Nous pouvons connaître le fournisseur d'accès et localiser une IP », précise le responsable. Ces profils sont ensuite associés à des événements récupérés via la plateforme d'observabilité de Splunk.

Rapidement, Bertrand Provost a rencontré un premier défi, qui résidait dans la masse de données à traiter. En effet, pour seulement 24 heures d'événements collectés, la base de données grimpait à plus de 100 millions de noeuds et plus de 300 millions de relations. « En l'espace d'une heure, il fallait donc être capable d'intégrer 5 millions de noeuds et de créer 15 millions de relations », pointe Bertrand Provost. Pour gérer une telle volumétrie, celui-ci s'est donc fait accompagner par les services professionnels de l'éditeur, et deux personnes l'ont ensuite rejoint en interne.

Détecter les divergences

Une fois l'enjeu de volumétrie résolu, la construction du modèle a pu se poursuivre. « Nous reconstruisons dans Neo4J une chaîne d'événements issus de Splunk », indique Bertrand Provost. En se basant sur la probabilité d'enchaînement des événements et sur différents algorithmes (page rank, Dijkstra), le modèle parvient, pour un fournisseur d'accès donné, à mettre en évidence des comportements inhabituels, voire suspects. D'autres indicateurs macroscopiques peuvent être ajoutés pour surveiller l'utilisation de l'application, par exemple en se basant sur l'entropie des relations, dont le niveau n'est pas censé bouger au fil du temps.

PublicitéPour faciliter les opérations de comparaison et d'analyse statistique, les parcours sont transformés en vecteurs qui ne contiennent pas d'informations techniques sur les environnements. « Les vecteurs sont plus malléables, le format permet de faire des projections, des comparaisons et réductions. En outre, il est consommable par les algorithmes d'IA », souligne Bertrand Provost. L'usage des vecteurs facilite la détection des valeurs divergentes des autres. « En comparant les parcours et leur évolution pour un utilisateur, une localisation ou un fournisseur d'accès, nous pouvons déclencher une alerte si la variance est importante », explique le responsable. En procédant ainsi, le modèle a réussi, par exemple, à détecter 275 devices connectés derrière une seule IP, sur un fournisseur d'accès connu pour servir à des fraudeurs. « Nous n'établissons des seuils que sur des probabilités significatives. Si une seule personne se connecte depuis l'Ouzbékistan par exemple, son parcours ne sera pas pris en compte », précise le responsable. Une procédure déterministe de contrôle a également été mise en oeuvre pour limiter les faux positifs et erreurs éventuelles.

Une approche déclinable pour d'autres cas d'usage

A l'heure actuelle, le modèle parvient à fournir des indicateurs complémentaires pertinents pour détecter des fraudes à grande échelle. « Les approches déterministes se basent sur des schémas établis, tandis que l'approche probabiliste permet de détecter des schémas de fraude encore jamais observés », souligne Bertrand Provost. Désormais, l'équipe travaille à affiner le modèle pour le rendre plus précis, afin de pouvoir également détecter des schémas de fraude plus modestes. Le groupe teste aussi une approche similaire autour des connexions à Office 365, en analysant les chemins pour prévenir les risques d'usurpation ou de vol de comptes. « Nous pourrions utiliser la même approche pour analyser d'autres aspects, comme l'usage des licences », projette le responsable.