Lors de son Databricks Data + AI Summit (15-18 juin à San Francisco), Databricks a multiplié les annonces avec notamment l'architecture LTAP et également Genie Ontology. Le spécialiste en data store a également présenté Genie ZeroOps pour répondre aux besoins de gestion et de maintenance des pipelines et des modèles IA. En effet à mesure que les environnements de données s’étendent et que les charges de travail IA se multiplient, le temps consacré à leur maintenance s'accroit fortement. Parallèlement, les outils de codage IA accélèrent le développement, générant encore plus de ressources nécessitant une supervision, ce qui creuse l’écart entre la vitesse à laquelle les équipes peuvent créer et gérer les workloads qu’elles doivent gérer. A cette fin, Genie ZeroOps se pose en fonctionnalité opérationnelle autonome conçue pour automatiser la surveillance, l’analyse et la résolution des problèmes liés aux workloads data et IA.

Actuellement en beta privée, ZeroOps utilise un agent IA pour identifier les anomalies, en retracer les causes profondes à l’aide des métadonnées et des informations de traçabilité via Unity Catalog, et proposer des solutions. Mais aussi les tester dans un environnement isolé avant de les soumettre à un examen humain en vue de leur mise en production. Selon les analystes, Genie ZeroOps répond à un véritable défi auquel sont confrontées les entreprises en matière de complexité opérationnelle, notamment la charge croissante liée à la maintenance des données et des charges de travail IA en production. « La plupart des équipes chargées des données consacrent plus de temps à maintenir les pipelines et les modèles opérationnels qu’à en créer de nouveaux », indique Amit Chandak, directeur analytique chez Kanerika, un cabinet de conseil en informatique.

L'essor des outils IA de codage accentue les risques

Faisant écho à Amit Chandak, le consultant indépendant David Linthicum a déclaré que les entreprises continuent de se heurter à des problèmes de dérive des déploiements, de gestion des incidents, de contrôles de conformité et d’analyse des causes profondes au sein d’environnements data et IA de plus en plus fragmentés. Ces défis, renchérit Victor Coimbra, directeur technique du cabinet de conseil en informatique Artefact, sont aggravés par l’émergence d’outils de codage automatisés qui accélèrent le développement d’actifs, tels que les pipelines et les modèles d’apprentissage automatique, nécessitant une « surveillance constante ». Cette charge de maintenance entraîne un coût de productivité significatif, a déclaré Robert Kramer, associé gérant chez KramerERP, soulignant que des activités telles que la gestion de l’infrastructure, des environnements de déploiement, des processus de support et des workloads opérationnels prennent du temps sans créer directement de valeur commerciale.

Selon Victor Coimbra, ces freins à la productivité se sont révélés difficiles à éliminer malgré l’émergence et l’adoption généralisée d’outils automatisés d’observabilité et de gouvernance. « Ce qui fait la différence ici, c’est la dimension agentique. Databricks tente de passer d’outils qui alertent les humains à des systèmes capables de diagnostiquer les problèmes, de proposer des solutions, et de les valider dans un environnement gouverné sans perturber la production », a renchéri Stéphanie Walter, responsable de l'activité IA chez Hyperframe Research.

Des équipes d'ingénierie potentiellement en sous-régime

Selon les analystes, cette évolution pourrait transformer le mode de fonctionnement actuel de la plupart des plateformes d’entreprise et des équipes de développement. « Les ingénieurs qualifiés consacrent la majeure partie de leur temps à des tâches fastidieuses. Si l’agent ZeroOps, fonctionnant en arrière-plan, se charge de la surveillance, de l’analyse et des propositions de correction, les ingénieurs passent alors de l’exécution des tâches opérationnelles à leur vérification. La distinction traditionnelle entre ceux qui développent et ceux qui assurent le bon fonctionnement commence à s’estomper », a déclaré Ashish Chaturvedi, responsable de la recherche exécutive chez HFS Research. « De plus, cela signifierait également que les équipes chargées des plateformes [les ingénieurs responsables de la maintenance] pourraient se concentrer sur les défaillances véritablement nouvelles plutôt que sur celles qui sont répétitives. »

Selon Victor Coimbra, cette évolution pourrait également avoir une incidence sur la manière dont les entreprises développent leurs équipes chargées des plateformes : « Elles peuvent cesser de recruter du personnel opérationnel à chaque nouveau pipeline. Une même équipe peut désormais couvrir un champ d’action bien plus large. » Étant donné que cette fonction est encore en phase beta, Amit Chandak souligne que les affirmations concernant la réduction des effectifs étaient peut-être exagérées. ZeroOps pourrait au contraire présenter un risque d’atrophie des compétences », déclare-t-il. « Si les ingénieurs cessent de déboguer parce que l’agent s’en charge, la capacité de l’équipe à gérer les cas que l’agent ne peut pas traiter devient un véritable point faible », ajoute de son côté Victor Coimbra.

Une valeur ajoutée à bien mesurer

Genie ZeroOps pourrait séduire les DSI car il allie capacité d’innovation et rigueur opérationnelle, plutôt que d’imposer un compromis entre les deux, a déclaré M. Linthicum. « Son attrait est simple : réduire les freins opérationnels, raccourcir les cycles de déploiement, améliorer la résilience des services et renforcer la gouvernance sans augmenter les effectifs au même rythme que les charges de travail », a-t-il ajouté. Cette combinaison d’efficacité et de fiabilité pourrait aider les DSI à maîtriser l’un des principaux coûts liés à l’exploitation des environnements de données et d’IA, a déclaré Ashish Chaturvedi. « ZeroOps s’attaque au temps consacré à la maintenance. Les DSI ont vu leurs budgets d’ingénierie des données exploser tandis que la part de ces dépenses consacrée à la création de valeur nette ne cesse de diminuer. » David Linthicum a toutefois averti que les DSI devaient considérer cette nouvelle offre avec un scepticisme mesuré et rechercher des indicateurs permettant de valider les affirmations de Databricks.

« Les indicateurs clés sont le délai moyen de détection et de résolution, ainsi que la part d’incidents que l’agent clôture sans intervention humaine. Ceux-ci permettent de déterminer si le système élimine réellement les complexités opérationnelles qu’il promet », renchérit Amit Chandak. « Au-delà de ces indicateurs, les DSI devraient suivre la précision de l’identification des causes profondes, le taux de faux positifs sur les solutions proposées, ainsi que la proportion de solutions approuvées par les ingénieurs sans modification, car ce dernier chiffre est le véritable indicateur de confiance. En termes de coûts, ils devraient mesurer le coût par incident traité par rapport à la référence humaine, hors coût de calcul de l’agent. » Cet examen minutieux, a-t-il précisé, est d’autant plus important pour les DSI que Databricks s’inscrit dans une catégorie émergente. « La plupart des annonces des fournisseurs d’agents ciblent les couches de développement et d’utilisation, en aidant les utilisateurs à écrire du code ou à interroger leurs données. ZeroOps cible la couche d’exploitation, qui est moins encombrée », a précisé Amit Chandak.