Trop de temps est dépensé à rechercher, consulter et trier les données qui sont dispersées sur des plateformes diverses en local, dans plusieurs clouds et au sein des différentes unités opérationnelles. Et, lorsque les spécialistes de la data trouvent les bons jeux de données, les besoins métier ont en parallèle déjà évolué. De ce constat, il ne faut pas enfermer le client dans des solutions propriétaires comme l’a récemment rappelé Pascal Gasp, senior solutions architect de Starburst. L’éditeur, spécialiste du data mesh, a donc choisi de fournir une gateway unique et rapide pour l’accès aux données en se basant sur des technologies ouvertes (moteur de requête SQL basé sur Trino et support du format de table Iceberg). Starburst peut donc se connecter à une grande variété de sources de données dans des multiples environnements (cloud, hybride et on premise), les fédérer et les interroger, et son ingestion des données dans le lake en continu facilite l’analyse en temps quasi réel. En supportant tous les environnements, l’éditeur répond également aux demandes des organisations opérant dans des secteurs réglementés comme les banques (de nombreux établissements utilisent la plateforme Starburst dont BNP Paribas, Crédit Mutuel Arkéa, Société Générale, etc.) qui ont besoin de flexibilité, de gouvernance et de l'interopérabilité d'Iceberg sans migrer toutes leurs charges de travail vers le cloud. Depuis peu, l’éditeur a doté sa plateforme d’agents IA dont AI Search qui intègre la conversion de données non structurées en vecteurs exploitables dans Apache Iceberg, AI SQL Functions pour la combinaison de prompts en langage naturel et de requêtes SQL ou encore AI Model Access Management, un système de gouvernance pour encadrer l’accès aux modèles. A cela, ajoutons AI Agent, un assistant qui aide à simplifier des tâches comme la création de data product et de metadatas, la génération d’indicateurs clés ou la rédaction de documentation technique.
Recours plus important à l’open source et à l’IA
De leur côté, des acteurs comme Databricks ou Snowflake ont des approches plus centralisées et orientés cloud. Snowflake, par exemple est construit sur les infrastructures d’Amazon Web Services, de Microsoft Azure et de Google Cloud, à ce titre pour répondre à des exigences de souveraineté européenne, David Delong, le directeur technique de Snowflake France nous confirme l’ouverture d’un cloud public indépendant via l’initiative European Sovereign Cloud d’AWS opérée depuis Allemagne d’ici à la fin de l’année. « Nous aussi chez Snowflake, nous ne souhaitons pas enfermer les entreprises dans une plateforme », admet également M. Delong, Snowflake devenant ainsi une plateforme de plus en plus ouverte. Preuve en est, la prise en charge native d’Iceberg ou encore de Polaris Catalog qui est, depuis un an, sous licence Apache 2.0 accessible sur GitHub. Autre signe, le lancement récent d’OpenFlow basé sur Apache Nifi (hérité suite au rachat de Datavolo) qui permet d’injecter des données de multiples sources. Snowflake part du principe que le transfert de données est l'un des plus grands défis auxquels les entreprises sont confrontées lors du déploiement de l'IA. A tout cela, l’éditeur ancre sa stratégie IA via Cortex AI et fournit de nombreux outils comme Snowflake Intelligence qui permet dialoguer avec les données, Cortex AISQL pour analyser les données non structurées avec SQL. Enfin, avec Cortex Agents et des outils tels que Cortex Analyst et Cortex Search, les développeurs peuvent créer des applications d’IA prêtes à la production qui raisonnent à partir de données structurées et non structurées, orchestrant les flux de travail avec des LLM, du SQL et la recherche sémantique.
Pour Databricks, sa plateforme repose sur une architecture Lakehouse, une base unique et ouverte, utilisant Delta Lake, où coexistent des données structurées, non structurées et en streaming. Et, l’éditeur parie aussi sur l’ouverture. « Nous avons créé des projets de données open source de premier plan tels que Delta Lake, Apache Spark, Unity Catalog et MLflow. Nous considérons l'open source comme un facteur de différenciation essentiel, car ces systèmes sont indispensables pour garantir que les données et l'IA restent transparentes, interopérables et accessibles à tous, et pas seulement à quelques privilégiés », souligne Nicolas Maillard, AVP technical general manager field engineering SEMEA chez Databricks. Et de poursuivre : « Lakebase, notre nouvelle base de données Postgres entièrement gérée pour l'IA, prolonge cette vision ouverte et multicloud puisqu’elle est conçue pour permettre aux développeurs de créer plus facilement des applications de données et des agents IA sur une seule plateforme. Nous considérons Postgres comme idéal pour les workflows basés sur des agents, car tous les LLM de pointe ont été entraînés sur la vaste quantité d'informations contenues dans le système de base de données. » Au début de l'année, Databricks a même lancé Free Edition, qui offre aux étudiants ou encore aux passionnés des données un accès gratuit à toutes les fonctionnalités de sa plateforme. En outre, l’éditeur exploite aussi l’IA notamment avec Agent Bricks qui génère automatiquement des données synthétiques spécifiques à un domaine et des benchmarks adaptés aux tâches, puis optimise les coûts et la qualité en fonction de ces benchmarks, éliminant ainsi le besoin d'essais et d'erreurs manuels. Il en résulte des agents prêts à l'emploi en quelques semaines, et non en plusieurs mois. « Par exemple, AstraZeneca a utilisé Agent Bricks pour analyser plus de 400 000 documents d'essais cliniques et en extraire des points de données structurés. En moins d'une heure, ils ont créé un agent fonctionnel (sans écrire une seule ligne de code) capable de transformer des données complexes non structurées et de les rendre utilisables pour l'analyse et l'IA », conclut le porte-parole de Databricks

Commentaire