Dans le cadre de son évènement annuel à Las Vegas du 22 au 24 avril, Google Cloud a repensé son portefeuille sur la data et l’analytique sous le nom Agentic Data Cloud, une architecture pour accélérer le déploiement en production des agents IA. Pour cela, elle transforme les données fragmentées en une couche sémantique unifiée donnant aux agents les capacités de raisonner et d'agir de manière plus fiable et à grande échelle. L’architecture présentée regroupe des outils existants, à savoir BigQuery, Dataplex et Vertex, en renforçant leurs capacités en matière de métadonnées, de gouvernance et d'interopérabilité inter-cloud. Elle apporte ainsi ce que Google nomme une couche d’intelligence partagée.
Un catalogue pour unifier le contexte métier
Au sein de cette couche, on trouve Knowledge Catalog, une évolution de Dataplex Universal Catalog. Selon la société, il sert de moteur de contexte universel pour l’entreprise, aidant les agents à exécuter des tâches complexes avec précision. Dans ce cadre, il comprend plusieurs fonctionnalités comme la prise en charge native des applications tierces telles que Salesforce, Palantir, Workday, SAP et ServiceNow. Par ailleurs, Knowledge Catalog cartographie automatiquement les données tierces transférées vers le datalake de Google.
Pour mieux intégrer la logique métier des données stockées chez le fournisseur, il ajoute des outils notamment un agent basé sur LookML (actuellement en preview) capable d’analyser les documents stratégiques de manière autonome afin de générer instantanément une sémantique opérationnelle. De son côté, les mesures de BigQuery (également en preview) s’assurent que la logique métier est bien agrégée pour une analyse des données plus rapide. Au-delà de l'agrégation, le catalogue lui-même est conçu pour enrichir en continu le contexte sémantique en analysant l'utilisation des données au sein de l'entreprise, souligne un billet de blog. Cela inclut le profilage des ensembles de données structurées ainsi que l'étiquetage et l'annotation du contenu non structuré stocké dans Cloud Storage.
Des approches différentes chez les concurrents
Pour les analystes, l'accent mis par Google sur la sémantique s'attaque à l'un des principaux obstacles au déploiement de l'IA en production dans les entreprises. « Le problème le plus complexe de l'IA réside dans l'incohérence du sens », explique Dion Hinchcliffe, responsable du pôle DSI chez The Futurum Group. Il souligne qu'une couche sémantique unifiée pourrait aider les DSI à établir un contexte métier cohérent entre les systèmes, tout en réduisant la nécessité pour les développeurs d'assembler manuellement les métadonnées et la traçabilité. Cette priorité accordée au contexte reflète également une évolution plus large dans la manière dont les hyperscalers abordent l'IA d'entreprise. Microsoft, avec Fabric IQ, et AWS, avec Nova Forge, poursuivent des stratégies similaires, en construisant des couches de contexte sémantique au-dessus des données d'entreprise afin de rendre les systèmes d'IA plus cohérents et plus faciles à déployer à grande échelle. Alors que Microsoft propose d'intégrer le contexte métier et l'intelligence sémantique à ses applications et agents IA, via ses offres Fabric IQ et Work IQ, AWS souhaite que les entreprises intègrent le contexte métier à un LLM en l'alimentant avec leurs données propriétaires.
Mike Leone, analyste principal chez Moor Insights and Strategy, a déclaré que l'approche de Google, bien que plus proche de celle de Microsoft, place la gestion des données au sein de son catalogue de données et de ses capacités de graphes. « Google et Microsoft abordent le même problème sous des angles différents : Fabric grâce à une infrastructure de données unifiée, et Google grâce à une couche sémantique et contextuelle unifiée », a expliqué l’analyste. Même les fournisseurs de data store convergent vers l'idée de proposer un catalogue capable de cartographier le contexte sémantique à partir de diverses sources de données, a ajouté Mike Leone, citant Unity Catalog de Databricks et Horizon Catalog de Snowflake.
Des risques pour les DSI
Selon Jim Hare, analyste et vice-président chez Gartner, la capacité d’affinage automatique du contexte par analyse sémantique dans le catalogue de Google pourrait amplifier les difficultés de gouvernance, en particulier en matière de gestion des métadonnées : « dans les environnements d'entreprise complexes, les erreurs dans les relations ou les définitions inférées nécessiteront une supervision humaine permanente afin de maintenir la confiance ». Il a également mis en garde contre les défis liés à la gestion opérationnelle et aux coûts. « Les flux de travail pilotés par des agents, couvrant les données analytiques et opérationnelles, potentiellement répartis sur plusieurs clouds, introduiront de nouveaux défis en matière d'observabilité, de débogage et de prévisibilité des coûts, a-t-il déclaré. Le comportement dynamique des agents peut générer des modèles de consommation opaques, obligeant les responsables des données et de l'analytique à gérer de près l'attribution des coûts, les limites d'utilisation et les garde-fous opérationnels à mesure que ces capacités se développent », ajoute-t-il.
L’adoption de l’approche architecturale de Google pourrait par ailleurs accroître la dépendance au niveau de l’orchestration, engendrant des problèmes de portabilité : « quitter la sémantique gérée par Google, les agents Gemini ou les abstractions BigQuery pourrait s’avérer plus complexe qu’une simple migration de données », avertit l’analyste.
Une certaine flexibilité
Malgré tout, ces risques pourraient être acceptables pour les entreprises privilégiant une intégration des données plus poussée à la flexibilité. Dans le cadre de Agentic Data Cloud, Google propose également une interopérabilité des données multiplateforme via le catalogue REST Apache Iceberg. Ce dernier permettra, selon l’entreprise, une fédération bidirectionnelle, offrant ainsi aux entreprises la possibilité d’accéder aux données, de les interroger et de les gouverner dans des environnements tels que Databricks, Snowflake et AWS, sans nécessiter de déplacement de données ni de frais de sortie. Pour Stephanie Walter, responsable de la pratique IA chez HyperFrame Research, cette interopérabilité sera stratégiquement importante pour les entreprises déployant des agents en production, en particulier celles disposant d’environnements de données hétérogènes. Mike Leone, de Moor Insights and Strategy, y voit une stratégie différente pour répondre à la demande des entreprises d'accéder aux environnements Databricks ou Snowflake et à ceux des hyperscalers sans migration de données coûteuse.
L'architecture Agentic Data Cloud inclut également un Data Agent Kit, actuellement en preview. Selon l'entreprise, ce kit est conçu pour aider les entreprises à créer, déployer et gérer des agents d'IA sensibles aux données, capables d'interagir avec des ensembles de données gouvernés, d'appliquer une logique métier et d'exécuter des flux de travail entre les systèmes. Robert Kramer, associé gérant de KramerERP, a déclaré que ce kit aidera les professionnels des données à abstraire leurs tâches quotidiennes, facilitant ainsi l'opérationnalisation de l'IA agentique dans les flux de travail. Toutefois, Jim Hare de Gartner a mis en garde les entreprises contre la délégation excessive de décisions critiques de gestion des données à des agents automatisés sans une observabilité, des contrôles de validation et une supervision humaine suffisants, en particulier lorsque les systèmes d'IA en aval dépendent de ces agents pour leurs opérations.