Selon Snowflake, ses fonctions SQL alimentées par l'IA générative, dites AISQL, peuvent aider les analystes de données et leurs entreprises à analyser les données non structurées avec SQL. Elles seront incluses dans le service entièrement managé Cortex, hébergé dans sa Data Cloud qui fournit les éléments nécessaires pour utiliser les LLM sans avoir à gérer une infrastructure GPU complexe. Cette solution comprend déjà des fonctions serverless qui peuvent être appelées à partir de SQL ou de Python pour analyser les données ou construire des applications basées sur l'IA. « AISQL s'appuie sur ces fonctions serverless pour analyser les données non structurées, améliorer les performances des requêtes et éviter aux analystes de données de dépendre des ingénieurs de données et des développeurs », a déclaré Christian Kleinerman, vice-président exécutif du produit chez Snowflake.

La possibilité d'interroger des données non structurées est importante pour les entreprises qui cherchent à obtenir des informations plus précises et à prendre des décisions plus rapidement. « L’accès à des données non structurées directement avec la syntaxe SQL n'est pas une nouvelle capacité pour Snowflake, mais ces fonctions d’IA génératives facilitent la tâche », a estimé Michael Ni, analyste principal chez Constellation Research. Avant l'introduction d'AISQL, les entreprises disposaient de diverses méthodes pour accéder aux données non structurées via SQL, en utilisant par exemple Document AI pour charger des données dans des documents, ou la colonne TEXT, ou encore en créant une table avec une colonne File et en utilisant SQL pour exécuter des requêtes sur cette table, bien qu'avec certaines limitations. BigQuery ML de Google permet également aux entreprises d'utiliser SQL pour écrire des requêtes sur les résultats des modèles d'apprentissage machine préparés sur des données non structurées. 

S’affranchir des datascientists

Mais surtout, selon M. Ni, AISQL pourrait éviter aux analystes de données d’avoir à attendre après les datascientists. « En intégrant l'IA générative dans une syntaxe SQL familière, Snowflake permet aux analystes de données d'exécuter des tâches telles que l'analyse de sentiments, la classification d'images et l'analyse de documents sans avoir à écrire du code Python ou à gérer des pipelines de ML, en rendant l’IA opérationnelle au niveau de la couche de requête, et pas seulement dans le laboratoire », a expliqué M. Ni. Selon Bradley Shimmin, responsable de la pratique des données et de l'analyse chez The Futurum Group, l’autre avantage d'AISQL c’est qu'il peut contribuer à faire de ce produit un moteur de requêtes unifié pour les entreprises afin d'analyser tous les types de données. « Snowflake n'est pas le seul fournisseur de logiciels d'entreposage de données à chercher à fusionner les données non structurées et les données structurées pour l'analyse », a rappelé M. Shimmin.

En effet, d'autres fournisseurs d'entrepôts de données tels que Databricks, Google et Oracle le font déjà ou sont en train de le développer. « Mais ils doivent en faire plus dans le domaine de l'analyse pour créer de la valeur pour les entreprises, en particulier avec SQL, peut-être en introduisant des méthodologies RAG (retrieval augmented generation) ou en augmentant la précision et la qualité des instructions SQL générées », a-t-il ajouté. « IBM est l'un des fournisseurs le plus avancé dans le domaine du langage SQL », a estimé M. Shimmin. La mise à jour récente de watsonx.data par IBM améliore les sources de données non structurées destinées aux pipelines RAG en y ajoutant des données structurées interrogeables. « Les utilisateurs peuvent combiner SQL et la recherche sémantique pour optimiser l'accès aux données et leur précision », a-t-il déclaré. Cortex AISQL utilise les grands modèles de langage (LLM) d'Anthropic, Meta, Mistral et OpenAI, entre autres, pour générer des fonctions SQL. Sur le plan des performances, Snowflake affirme pouvoir réduire le temps de réponse des requêtes de 30 à 70 % en fonction des ensembles de données et économiser jusqu'à 60 % des coûts lors du filtrage ou de la jonction des données. Cortex AISQL est actuellement disponible en avant-première publique.