La data est au cœur de la transformation digitale des entreprises et Google Cloud entend bien consolider ses efforts dans le traitement et l’analyse des données. On ne s’étonnera donc pas que les premières annonces de l’évènement Next du fournisseur soient liées à ces sujets. Elles se sont focalisées autour de BigLake et BigQuery avec comme maître mot l’ouverture et l’unification des données.

BigLake joue l'ouverture des formats

Sur le premier, Google Cloud a annoncé le support des formats de tables open source les plus couramment utilisés dans les datalakes. « Notre moteur de stockage unifié, BigLake, ajoutera la prise en charge d'Apache Iceberg, de Delta Lake de Databricks et d'Apache Hudi », explique Gerrit Kazmaier, vice-président de l'analyse des données chez Google Cloud, dans un billet de blog. Il ajoute : « En prenant en charge ces formats de données largement adoptés, nous pouvons contribuer à éliminer les obstacles qui empêchent les entreprises de tirer pleinement parti de leurs données ». Pour mémoire, BigLake a été présenté en avril dernier et a pour ambition d’unifier les lacs de données et les datawarehouses on premise mais aussi à travers plusieurs clouds.

La prise en charge d'Apache Iceberg sera disponible en avant-première, a indiqué la société, ajoutant que le support de Hudi et Delta Lake serait bientôt disponible. Aucun calendrier spécifique pour la preview et la disponibilité générale n'a été annoncé. Matt Aslett, directeur de recherche chez Ventana Research a souligné que le soutien des formats de table open source offrira des capacités de gestion des requêtes aux datalakes. « Plus de la moitié (57 %) des adoptants de datalakes utilisent aujourd'hui au moins un de ces formats de table émergents, ce qui a le potentiel d'accroître l'utilisation des lacs de données en remplacement des environnements d'entreposage de données, en prenant en charge les charges de travail analytiques basées sur le traitement de données structurées », a déclaré Aslett. De son côté, Doug Henschen, analyste principal chez Constellation Research souligne que les annonces de Google Cloud sont une réponse aux mises à jour récentes de Snowflake et Databricks. « Apache Iceberg est la nouvelle option qui gagne en popularité parce qu'elle promet l'ouverture et des gains de performance, mais Google indique clairement qu'il ne choisit pas de camp en promettant la prise en charge de Delta Lake et Hudi également », observe-t-il. Oracle pourrait aussi annoncer des fonctionnalités similaires la semaine prochaine lors de l’évènement CloudWorld.

BigQuery englobe les données non structurées

Le datawarehouse cloud du fournisseur s’enrichit de plusieurs fonctionnalités dont une très attendue, le support des données non structurées. « A partir de maintenant, les équipes chargées des données peuvent analyser des données structurées et non structurées dans BigQuery, en accédant facilement aux capacités de Google Cloud en matière d'apprentissage automatique (ML), de reconnaissance vocale, de vision par ordinateur, de traduction et de traitement de texte, à l'aide de l'interface SQL familière de BigQuery », glisse Gerrit Kazmeier. Selon Google, ces équipes manipulent principalement des données structurées ne représentant que 10% de l’ensemble des données. Elles comprennent les bases de données opérationnelles, des applications SaaS telles que Abode, SAP, ServiceNow, Workday et des données semi-structurées sous la forme de fichiers logs JSON. Les données non structurées, quant à elles, comprennent des vidéos, des fichiers audios, des mails ou des documents de formats variés.

Selon les analystes, la décision de Google d'ajouter la prise en charge des données non structurées constitue une capacité de différenciation pour les fournisseurs de services en nuage. Selon M. Henschen, aucun autre fournisseur de cloud concurrent ne répond actuellement à la nécessité de prendre en charge les données non structurées de manière aussi agressive que Google. « La prise en charge de tous les types de données sur une seule et même plateforme promet de simplifier les choses pour les DSI, les datascientist et les développeurs », a ajouté le consultant.

Adoption de Spark et DataStream

BigQuery se met à jour sur le traitement des données avec la prise en charge du moteur open source Apache Spark. Cette initiative s’inscrit dans la stratégie de l’entreprise visant à positionner son service cloud comme un datalake moderne supportant l’analyse, le datawarehous et la datascience, selon les analystes. La prise en charge de Spark sera en preview privée et donnera aux équipes en charge des données la capacité de créer des procédures dans BigQuery  sur Spark qui s’intègrent à leurs pipelines SQL. « En adoptant Spark, Google adopte le choix le plus populaire des datascientists », a déclaré M. Henschen. Il ajoute que « Contrairement à Google, Snowflake n'en est qu'à ses débuts dans le domaine de la datascience en utilisant Python et d'autres langages par le biais de son offre Snowpark au-dessus de sa base de données, et il dépend fortement de ses partenaires pour son support ». Un autre concurrent, Databricks, a également amélioré le support des charges de travail des entrepôts de données et de la Business Intelligence sur sa plate-forme.

Entre-temps, Google a également intégré son service de flux de sources de données, baptisé Datastream, à BigQuery. « Cette nouvelle intégration aidera les entreprises à ingérer toutes sortes de sources de data, y compris les données en temps réel dans AlloyDB, PostgreSQL, MySQL et des bases de données tierces comme Oracle, directement dans BigQuery », a déclaré Google Cloud. En parallèle, Google actualise son service d’unification des données, DataPlex pour automatiser les processus associés à la qualité des données. Les utilisateurs pourront ainsi comprendre plus facilement le catalogage des donnés, c’est-à-dire leur origine et la façon dont elles sont transformées et déplacées au fil du temps. Ces actions étaient en général réalisées de manière manuelle.

Looker Studio unifie les produits de BI

Auparavant, il existait la solution Looker et Data Studio. Google Cloud fusionne ces deux offres sous l’ombrelle Looker Studio. Elle sera disponible sous 3 options. « Looker Studio prend actuellement en charge plus de 800 sources de données avec un catalogue dépassant les 600 connecteurs, ce qui facilite l'exploration des données provenant de différentes sources » explique Kate Wright, directrice principale de la gestion des produits de BI chez Google Cloud.

Looker Studio, qui offrira actuellement un accès en avant-première privée aux modèles de données, devrait également bénéficier d'une interface rénovée, a indiqué la société, ajoutant que la version de base de Looker Studio sera gratuite. Avant la fusion des produits, Looker était un service payant et Data Studio était un service gratuit. La version gratuite, selon le consultant Matt Aslett, ne devrait pas être accompagnée d'un support. Pour bénéficier de ce dernier et des fonctionnalités supplémentaires, les entreprises devront passer à la version Pro de Looker Studio. « Les clients qui passent à la version Pro de Looker Studio bénéficieront de nouvelles fonctions de gestion d'entreprise, de capacités de collaboration en équipe et de SLA [accords de niveau de service]. Ce n'est que la première version, et nous avons développé une feuille de route de capacités, à commencer par l'intégration de Dataplex pour le lignage des données et la visibilité des métadonnées, que nos clients d'entreprise ont demandé », a déclaré Wright. D'autres mises à jour de Looker incluent la prise en charge d'outils de visualisation, tels que Tableau et Microsoft Power BI, pour accéder aux données, a indiqué la société.

Lancement de Vertex AI Vision

Dans un effort pour aider les développeurs et les scientifiques des données à construire et à déployer des applications basées sur la vision par ordinateur, Google a ajouté une fonctionnalité appelée Vertex AI Vision pour étendre les capacités de sa plateforme de machine learning Vertex AI. Le fournisseur s'est efforcé de faciliter les opérations ML avec le lancement de la plateforme Vertex AI l'année dernière en mai, suivi de l'introduction de l'environnement de développement collaboratif Vertex AI Workbench en octobre. « Ce nouvel environnement de développement d'applications de bout en bout vous aidera à ingérer, analyser et stocker des données visuelles », explique Google Cloud. Il affirme que ce nouveau service peut réduire le temps de création d'applications de vision par ordinateur de plusieurs semaines à quelques heures et à un dixième du coût des offres actuelles.

Google affirme que ces gains d'efficacité sont obtenus grâce à une interface relativement facile à utiliser et à une bibliothèque de modèles d'apprentissage automatique pré-entraînés pour des tâches courantes telles que le comptage d'occupation, la reconnaissance de produits et la détection d'objets. « Elle offre également la possibilité d'importer vos modèles AutoML ou ML personnalisés existants, issus de Vertex AI, dans vos applications Vertex AI Vision », conclut Google Cloud.