En début de semaine, DataStax a annoncé l’ajout du traducteur Schema GPT Translator à son service de streaming de données et d'événements Astra Streaming, disponible depuis l'année dernière sur AWS, Google Cloud Platform (GCP) et Microsoft Azure. Construit sur le logiciel open source Apache Pulsar, le service managé Astra Streaming permet aux entreprises d’alimenter en temps réel leurs applications avec un flux de données. Selon DataStax, Schema GPT Translator génère automatiquement des mappages de schémas, si bien que les développeurs peuvent se concentrer sur d'autres aspects de la construction de pipelines de données en temps réel et ils ne perdent plus de temps à créer manuellement ces mappages, une tâche toujours très fastidieuse. La création de mappages de schémas tient une part essentielle dans le développement de processus de pipeline de données, en particulier pour l'intégration des données et l'interopérabilité entre plusieurs systèmes et sources. « Habituellement, les systèmes de pipeline de données ont des approches différentes pour représenter des schémas et définir les types de données. Ce qui oblige à mettre en correspondance manuellement les schémas d'un pipeline. Or, ce processus est compliqué, fastidieux et source d'erreurs », a écrit Jamie Ferguson, directrice principale de la gestion des produits chez DataStax, dans un billet de blog. « Outre la complexité liée à la création de mappages de schémas, ces derniers doivent être mis à jour quand les schémas évoluent », a-t-elle ajouté. 

La fin des processus manuels

« Pour éviter le mappage manuel, Schema GPT Translator capture les relations contextuelles et les dépendances dans un schéma, et génère rapidement et précisément des correspondances avec d'autres représentations de schémas et types de données », a expliqué l'entreprise lors de l’annonce de la fonctionnalité. « Schema Translator prolonge l'approche qui consiste à connecter des sources de données comme des bases de données à des applications et vice-versa, depuis le mappage objet-relationnel (Object-relational Mapping, ORM) et la prise en charge par les API jusqu’aux recommandations automatisées basées sur un modèle d'IA génératif », a ajouté l'entreprise. « Actuellement, GPT Translator est disponible avec Astra DB Sink Connector et peut générer des mappages pour les schémas dans Astra Streaming (représentés en JSON ou Avro) vers les schémas Astra DB (représentés en Contextual Query Language), mais le support d'autres connecteurs sera ajouté plus tard », a déclaré DataStax. 

Selon Mme Ferguson, l'un des avantages du traducteur Schema GPT Translator c’est qu’il permet une mise à jour rapide des mappages de schémas au fur et à mesure de l'évolution des schémas afin de prendre en charge les changements dans les pipelines de streaming soit du fait de nouvelles sources de données, soit à la suite de changements dans les exigences métiers. Les entreprises abonnées à Astra Streaming pourront utiliser le traducteur Schema GPT Translator sans coûts supplémentaires. Astra Streaming propose trois niveaux d’abonnements, dont un modèle de paiement à l’usage. Le terme GPT (Generative Pre-trained Transformer/transformateur génératif pré-entraîné) désigne un modèle d'intelligence artificielle basé sur des techniques d'apprentissage profond. Il a été popularisé par ChatGPT d'OpenAI, même si l'entreprise n’est pas la seule à l'utiliser et qu'elle a publié plusieurs versions de son propre GPT. DataStax n'a pas précisé pour l’instant quel GPT elle utilisait.

Recherche vectorielle 

La semaine dernière, l’entreprise a déclaré qu'elle s'associait à Google Cloud pour apporter la recherche vectorielle à AstraDB afin de rendre Apache Cassandra plus compatible avec les charges de travail IA et de grands modèles de langage (LLM). Construite sur Apache Cassandra, AstraDB sera sans doute l'une des premières à apporter la recherche vectorielle à la base de données distribuée open source. Actuellement, la recherche vectorielle pour Cassandra est prévue pour la version 5.0, d’après un message de la communauté des bases de données, dont est membre DataStax.