Le 5 septembre dernier, Veolia a dévoilé à ses équipes le fruit de ses premiers efforts en matière d'IA générative : une application baptisée Veolia Secure GPT. Objectif affiché : mettre ces technologies entre les mains de tous les salariés - même si pour l'heure, l'accès est limité aux 5 000 collaborateurs du siège - pour tester les usages les plus prometteurs, sans prendre le risque de perdre le contrôle de données confidentielles.

L'application Web, développée en responsive design, est hébergée sur GCP, le cloud de Google, et adresse des requêtes à Azure OpenAI, qui héberge les modèles GPT 3.5 et GPT 4.0 qu'exploite la multinationale aux 220 000 collaborateurs. Une approche jusque-là des plus classiques. Sauf qu'elle s'enrichit de l'utilisation d'un autre moteur LLM d'OpenAI (text-embedding-ada), qui permet de stocker sous forme vectorielle des données chargées par un utilisateur. « Ce qui nous permet de proposer d'emblée deux services, détaille Fouad Maach, architecte en chef et responsable de l'industrialisation au sein de la DSI de Veolia Group. En plus de l'interface conversationnelle, nous proposons un second service permettant aux salariés de télécharger un ou plusieurs documents PDF pour ensuite les interroger avec GPT 3.5 ou 4.0. »

Éviter le développement d'usages non encadrés

L'application, que la DSI de Veolia prévoit d'étendre à tous les salariés du groupe d'ici à la fin d'année, a été développée en un temps record sur le framework LangChain, qui permet d'interroger plusieurs moteurs LLM. Démarrés en juin, les développements ont donné naissance à une version bêta dès juillet. « Nous avons pris cette décision car nous avons réalisé que les usages des IA génératives grand public connaissaient une croissance rapide au sein de notre organisation. Nous avons donc publié des directives pour interdire ces services présentant un risque d'exfiltration de données. Mais, en parallèle, nous avions besoin de mettre en place une alternative », raconte Fouad Maach. 

D'où le choix d'un chat s'appuyant sur les modèles d'OpenAI sans personnalisation particulière, permettant aux collaborateurs du groupe de se familiariser à l'écriture de prompts... et de se méfier des réponses des IA génératives. Et celui d'une approche dite RAG (pour retrieval-augmented generation) qui consiste à améliorer les réponses des LLM en leur fournissant des sources de connaissances additionnelles. Des PDF dans le cas de Veolia. « Cela permet de réduire le taux d'hallucinations (ces réponses que l'IA générative invente, NDLR) à quasi-néant », assure l'architecte en chef, qui se base sur les tests effectués en laboratoire et auprès de 80 premiers utilisateurs.

Identifier les cas d'usage les plus prometteurs

Les deux services intégrés dans Veolia Secure GPT doivent servir de galop d'essai, la DSI du groupe envisageant déjà un troisième service qui devrait s'appuyer sur des données persistantes (pour l'instant, celles extraites des PDF sont éphémères) et un LLM personnalisé. Surtout, cette incursion rapide dans le monde des LLM permet à la DSI de conserver la maîtrise de la technologie, en imposant l'authentification maison et en obtenant, tant d'OpenAI que de Microsoft, des garanties techniques et contractuelles que les données ne serviront pas à l'entraînement des modèles pour d'autres usages.

« Les premiers retours des utilisateurs sont positifs et l'application tient la charge, nous indique Fouad Maach. Mais il est encore un peu tôt pour identifier les cas d'usage les plus prometteurs. » La réalisation de ce classement figure toutefois parmi les objectifs de la DSI. « Les questions sont enregistrées, ce qui permettra de classifier les usages pour établir des priorités dans les futurs développements. » Ce qui explique d'ailleurs le choix de Veolia d'ouvrir les usages de l'IA générative à tous les collaborateurs. « En fonction des usages qui se détachent, nous privilégierons une approche RAG ou un modèle personnalisé sur nos données, indique Fouad Maach. Mon pronostic, c'est que le RAG sera retenu dans la majorité des cas, car avoir recours à des modèles personnalisés implique des investissements plus lourds. Il faut entraîner ces modèles, les maintenir dans le temps, etc. »

La sortie de cette application, financée par la DSI groupe pour l'instant (les filiales seront refacturées en fonction des usages quand l'accès leur sera ouvert), apparaît comme la première concrétisation d'un document de position, publié par la DSI de Veolia, sous la houlette de son CTO, Julien Largillière, en mai dernier. Un document dont l'objectif était de clarifier la position de l'organisation sur ce sujet émergent. Depuis, la multinationale a également organisé des sessions de formation accélérées aux LLM, pour permettre aux utilisateurs au sein des métiers de se familiariser avec les prompts, mais aussi avec les risques de ces outils.