Databricks a acquis Tabular, fournisseur d'une plateforme de stockage créée par les créateurs d'Apache Iceberg pour faciliter l'interopérabilité des données dans les lakehouse. Les fondateurs de la start-up, Ryan Blue et Daniel Weeks, ont commencé à développer Iceberg chez Netflix en 2017 et en ont fait don à l'Apache Software Foundation en 2018, à peu près au même moment où Databricks développait son Delta Lake initialement avec des formats de table pour les données qui peut être utilisé pour les transactions ACID ou le traitement OLTP. En juin 2022, le fournisseur a ouvert toutes les API de Delta Lake dans le cadre de sa version 2.0 et a déclaré qu'elle contribuerait à toutes les améliorations de Delta Lake à la Fondation Linux. Avant l'ouverture de Delta Lake, des concurrents tels que Cloudera, Dremio, Google (Big Lake), Microsoft, Oracle, SAP, AWS Snowflake, HPE (Ezmeral) et Vertica avaient critiqué l'entreprise, jetant le doute sur le caractère open source ou propriétaire de Delta Lake, lui enlevant ainsi une partie de ses clients potentiels.

Avec l'acquisition de Tabular, Databricks a déclaré qu'il prendrait en charge les deux principaux formats de table open source pour les bases de données pour lakehouse, et qu'il étendrait également la prise en charge de ses tables UniForm. « Databricks a l'intention de travailler en étroite collaboration avec les communautés Delta Lake et Iceberg afin d'assurer la compatibilité des formats pour les datalake ; à court terme, au sein de Delta Lake UniForm et à long terme, en évoluant vers une norme d'interopérabilité unique, ouverte et commune », indique l'entreprise dans un communiqué. UniForm (Universal Format) est un dernier format de table publié en juin 2023 qui assure l'interopérabilité entre Delta Lake, Iceberg et Hudi, et qui prend en charge l'interface de catalogue d'Iceberg.

Une lutte à couteaux tirés

Les analystes considèrent également l'acquisition de Tabular comme un moyen pour Databricks de soutenir une interopérabilité plus robuste. « Nous avons déjà constaté que les entreprises acquièrent souvent les talents à l'origine d'importants projets open source afin d'avoir une voix forte au sein de la communauté des développeurs du projet », a déclaré Bradley Shimmin, analyste principal chez Omdia. « Le fait que les fondateurs de Tabular rejoignent Databricks assurera une meilleure compatibilité entre Delta Lake et Iceberg (devenu un standard de facto), ce qui donnera à Databricks un avantage sur Snowflake pour soutenir les clients qui dépendent fortement de données externes à la plateforme Snowflake », a expliqué Bradley Shimmin. Toutefois, l'analyste principal a souligné que l'acquisition ne devrait pas entraver l'utilisation d'Iceberg par Snowflake, étant donné que Ryan Blue et Daniel Weekss ont depuis longtemps ouvert le projet et en ont fait don à l'Apache Software Foundation.

L'analyste principal de Constellation Research Doug Henschen estime également qu'Apache Iceberg a déjà éclipsé tous les autres standards et que l'incursion de Databricks dans la création d'une interopérabilité pour le format de table le poussera encore plus loin pour qu'il devienne le standard de table dominant. En outre, les analystes ont souligné que la rivalité ne se limite pas aux deux formats de table ouverts, mais englobe Snowflake et Databricks. « Le moment choisi pour conclure cet accord est manifestement destiné à attirer l'attention de Snowflake et à essayer de surpasser son concurrent en matière de messages d'ouverture, en suggérant qu'il aura une influence considérable sur l'avenir du standard Iceberg et de Delta Lake », a fait savoir Doug Henschen. Snowflake a également présenté cette semaine son catalogue de données Polaris et a déclaré qu'il allait l'ouvrir dans les 90 prochains jours. Polaris Catalog est une offre de gouvernance des données fournissant des capacités de contrôle d’accès, d’audit, de catalogage et de recherche des données en ajoutant le support des tables Iceberg. Elle concurrence frontalement le service Unity de Databricks.

Hyoun Park, analyste principal d'Amalgam Insights, a également appuyé son confrère Doug Henschen en déclarant que les deux fournisseurs de lakehouse tentent de montrer qu'ils sont mieux adaptés pour prendre en charge l'environnement des données d'entreprise à travers une variété de formats et de types de données. « Databricks bénéficie de cette acquisition car elle montre qu'elle peut prendre en charge Iceberg, qui est sans doute le format de table le plus utilisé », a expliqué le consultant, ajoutant que même si le fournisseur a traditionnellement été un bon contributeur open source pour ses propres projets, la communauté de contributeurs d'Iceberg est maintenant beaucoup plus importante que Tabular avec les engagements qui existent de la part de nombreux grands vendeurs. Toutefois, Doug Henschen a souligné qu'il y a trop de parties intéressées pour qu'une entreprise domine Iceberg, bien que l'acquisition de Tabular puisse donner à Databricks un avantage sur le front d'Iceberg.

Databricks et Snowflake dans un tourbillon de rachats

Databricks n'en est pas à sa première acquisition, plus tôt en mars, il a racheté Lilac, basée à Boston, pour aider les entreprises à explorer et à utiliser leurs données non structurées afin de créer des applications basées sur l'IA générative. Auparavant, Databricks avait acquis MosaicML, fournisseur de logiciels de formation de modèles et de LLM, pour un montant de 1,3 Md$, pour développer ses offres de GenAI à partir de juin dernier. Avant l'acquisition de Lilac AI et de MosaicML, la société avait acquis le fournisseur de plateforme de gouvernance de données axée sur l'IA Okera pour un montant non divulgué en mai de l'année dernière. Ce rachat devait renforcer les capacités de Databricks en matière de gouvernance des données lors de la formation et de la gestion de grands modèles de langage (LLM), tels que son LLM Dolly 2.0 publié en open source

Snowflake a également racheté des entreprises qui non seulement renforcent ses offres en GenAI, mais aussi ses capacités en gestion des données. Son dernier rachat a pris la forme d'un achat d'actifs de la société TruEra, fournisseur d'une plateforme d'observabilité, une jeune pousse positionnée également dans la fourniture de capacités de gestion du cycle de vie pour l'apprentissage automatique et les LLM. En mai 2023, le spécialiste du datawarehouse cloud a aussi mis la main sur Neeva, une start-up basée à Mountain View, en Californie, pour un montant non divulgué, dans le but d'ajouter la recherche générative basée sur l'IA à sa plateforme Data Cloud. En février 2023, c'est sur LeapYear qu'il a jeté son dévolu pour renforcer ses capacités de nettoyage des données. Ce rachat a eu lieu juste un mois après que Snowflake a accepté d'acheter le fournisseur de plateforme de prévision de séries temporelles basée sur l'intelligence artificielle Myst AI, portant le nombre d'acquisitions de la société à sept entreprises en trois ans.