En direct de Las Vegas. Si la première journée de CloudWorld s’est focalisée sur la partie infrastructure avec notamment l’annonce d’Alloy, la marque blanche d’OCI, Oracle n’oublie pas son ADN autour de la data. La firme américaine vient donc de présenter le service MySQL Heatwave Lakehouse. Popularisé par Databricks, le concept de Lakehouse vise à dépasser les restrictions associées aux data lakes d’une part et aux datawarehouses d’autre part, en combinant les avantages des deux types d’architecture. L’objectif est de mettre en oeuvre les structures de données et la capacité de traitement du datawarehouse sur le type de stockage à coût réduit utilisé pour les data lakes.

MySQL Heatwave Lakehouse pour rattraper la concurrence

Depuis, plusieurs fournisseurs ont adopté cette notion comme Snowflake, AWS, Google Cloud ou plus récemment Terradata avec VantageCloud Lake et Cloudera avec CDP One. Oracle ne pouvait donc pas rester en retrait de cette tendance avec la version cloud de la base de données relationnelles open source MySQL nommée Heatwave. Pour se démarquer de la concurrence, l’offre est conçue « pour charger et interroger rapidement jusqu'à 400 To de données, tandis que le cluster HeatWave peut évoluer jusqu'à 512 nœuds », souligne Clay Magouyrk, vice-président exécutif de l'activité OCI chez Oracle. Les requêtes peuvent se faire dans plusieurs formats de fichiers, bien évidement dans la base de données MySQL, mais aussi dans des object store CSV, Parquet et Avro ainsi que dans les sauvegardes Aurora et Redshift d'AWS. Rien n’a été dit autour des formats de table open source qui sont en train de monter comme Iceberg ou Hudi promus par la Fondation Apache. Récemment Google Cloud a indiqué le prochain support de ces formats au sein de BigLake.

Pour accompagner le service MySQL Heatwave Lakehouse qui est encore en version beta et devrait être généralisée au 1er semestre 2023, Oracle pousse la solution MySQL Autopilot. Cette dernière a été présentée en 2021, mais les fonctionnalités d’automatisation basées sur le machine learning ont été adaptées au Lakehouse. Elles comprennent notamment l’inférence automatique de schéma, c’est-à-dire la capacité de déduire la cartographie des données du fichier aux types de données de la base de données. Pour accélérer les performances des requêtes, Autopilot se sert d’un échantillonnage adaptatif des données, collectant des statistiques avec un accès minimal aux données.

Database 23c se dévoile

En complément de l’offre Lakehouse, Oracle a présenté la prochaine version de Database. En beta, la 23c succède à la 21c, l’itération 22 a été remisée pour cause de Covid. Elle apporte plusieurs fonctionnalités supplémentaires dont celles baptisées JSON Relational Duality. De nombreuses applications stockent les données dans le format JSON, populaire chez les développeurs. Ces derniers pourront utiliser l'API et la syntaxe JSON pour programmer des applications en s’appuyant sur Database 23c. De l’autre côté, les DBA pourront se servir d’une suite complète de requêtes SQL pour accéder aux données JSON. Outre cette fonctionnalité, Oracle Database 23c comprend des modèles de machine learning pour augmenter la performance des requêtes et automatiser certaines tâches. Sur la partie sécurité, un pare-feu intégré bloque automatiquement les requêtes SQL malveillantes envoyées à la base de données.

Sur la partie Database, nous avons interrogé Christophe Négrier, DG d’Oracle France sur l’adoption des dernières versions de la base de données relationnelles et notamment sur la version autonome. « Elle est un peu moindre en France. Tout changement comporte un risque et cela prend du temps », assure-t-il. Il ajoute, « il y a une évolution vers la 19c pour avoir plus de fonctionnalité et de sécurité, mais il faut aussi une politique de conduite au changement ».