Sans une préparation rigoureuse des données, même les systèmes IA les plus sophistiqués produiront des résultats décevants ou pire faussés. « Un LLM avec lequel je travaille ne pourra pas me donner des réponses correctes si les données sont mauvaises, Il faut instaurer la confiance grâce à des données de qualité, un contexte sémantique et favoriser la découverte pour s’assurer que l’on connecte les bons utilisateurs et les bons LLM avec les bonnes sources de données », avait rappelé Ashley Wiseman responsable produits de Dataiku lors de ses Tech Day 2025 fin septembre dernier. L’éditeur en avait d’ailleurs profité pour renforcer son outillage IA et data. D’une manière générale, pour accélérer l’adoption des projets IA, la tendance actuelle est de fournir des plateformes dédiées qui servent à la préparation des données. Par préparation, on entend des outils de classification, d’enrichissement des métadonnées, de filtrage intelligent, de segmentation, de recherche sémantique, d’échantillonnage, d’intégration RAG ou encore d’usage de bases de données vectorielles. Comme le souligne Eric Bezille, directeur technique et responsable des avant-ventes chez Dell Technologies, la promesse de l’IA se réalise lorsqu’elle apprend de vos données. « Celle-ci se traduit par notre solution open source AI Data Platform (ndlr : composante de son AI Factory) qui permet l’enrichissement, la protection et la gestion du cycle de vie des données ». La plateforme du texan, basée sur la référence AI Data Platform de Nvidia, se veut donc une base ouverte et modulaire pour valoriser des silos de données disparates, elle repose entre autres sur un lakehouse et sur des moteurs de préparation et de recherche des données comme la recherche sémantique optimisée par la base de données vectorielle d’Elasticsearch ou encore sur les technologies ouvertes de Starburst (moteur Trino et support d’Iceberg). A ce titre, Nicolas Maillard, AVP technical general manager field engineering SEMEA chez Databricks, observe deux évolutions majeures en matière de préparation des données pour l'IA, en particulier pour les modèles linguistiques à grande échelle (LLM) et la recherche sémantique. C’est déjà la recherche vectorielle native (intégrée au Lakehouse de Databricks) qui permet aux entreprises de transformer leurs documents et leurs données en vecteurs sémantiques et d'effectuer des recherches basées sur le sens et les fonctions IA au niveau SQL. « Nos fonctions IA permettent aux ingénieurs de données d'intégrer des capacités d'IA générative, telles que la classification, la traduction ou la synthèse de texte, directement dans leurs pipelines SQL ou ETL. Cela signifie que les données non structurées sont enrichies et préparées pour l'IA à grande échelle, de manière simple et contrôlée, avant même d'alimenter les modèles » explique M. Maillard.

Même combat chez la majorité des fournisseurs

Ce ne sont pas les applications ou les modèles d'IA qui posent problème, mais les données qui les alimentent, c’est aussi dans ce contexte que le fondateur et CTO d'Oracle Larry Ellison a récemment lancé AI Data Platform lors de son événement Oracle AI World; ce dernier n’a d’ailleurs pas manqué de signaler que la majorité des données mondiales de grande valeur se trouvait dans une base de données Oracle. Et pour les rendre exploitables et à disposition des projets IA, l’AI Data Platform, intégrée à Oracle Cloud Infrastructure (OCI), Oracle Autonomous AI Database et OCI Generative AI Service, combine l'ingestion automatisée de données, l'enrichissement sémantique et l'indexation vectorielle avec des outils d'IA générative intégrés ; tout cela permettant aux organisations de passer efficacement des données brutes à l'IA de production. De son côté, NetApp, par les propos de Gagan Gulati, vice-président des produits pour les services de données, reconnait aussi que la plupart des initiatives d'IA en entreprise peinent à passer de la preuve de concept à la production, souvent faute de données prêtes à l'emploi. Pour y remédier, le fournisseur a donc dévoilé son offre AI Data Engine (AIDE) - intégré à Ontap – qui renferme un ensemble de services apportant une vue globale de l'ensemble des pipelines de données et de leur cycle de vie grâce notamment à des métadonnées enrichies et des fonctionnalités de recherche sémantique. AIDE utilise la détection et la synchronisation automatisées des modifications pour maintenir une vue unique et toujours à jour de vos données. Au lieu de gérer plusieurs copies, les équipes travaillent avec une source unique et fiable qui informe automatiquement les utilisateurs en aval lorsque les données sources sont modifiées. Enfin, Pure Storage se positionne aussi dans cette démarche avec son offre Enterprise Data Cloud, présentée lors de son dernier événement Accelerate 2025 à Paris, celle-ci promet d’ailleurs une gestion unifiée des données quel que soit leur emplacement (sur site, en cloud privé ou public). Le fournisseur veut en quelque sorte transformer le stockage en un cloud de données unifié et virtualisé, régi par un plan de contrôle intelligent et fourni sous forme de service avec des résultats garantis. Bien sûr, l’idée, derrière ces services unifiés pour la préparation des données (data wrangling), n’est pas d’abonner son legacy, au contraire, les entreprises doivent continuer de s'appuyer sur leurs pratiques de gestion des datas existantes en intégrant de manière itérative toutes ces technologies spécifiques à l'IA qui contribuent à étendre et à améliorer la gestion des données pour prendre en charge des nouveaux cas d'usage autour de l’IA Gen.