L’offre cloud de Microsoft dédiée au machine learning pour le développement et l’entraînement de modèles algorithmiques s'enrichit. Des fonctions supplémentaires d’intégration de données viennent ansi d’être présentées par le fournisseur. Amar Badal, senior manager pour Azure Machine Learning détaille donc dans un blog l’arrivée d’ « une interface de ligne de commande (CLI) d'importation de données et un kit de développement logiciel (SDK) qui permet aux données d'être apportées à partir de référentiels de données extérieurs à la plateforme comme Snowflake ou AWS S3 ». La CLI est une interface utilisateur textuelle qui peut servir pour interroger des fichiers, exécuter des programmes et interagir avec une instance d'ordinateur ou un serveur.

Le responsable souligne que « le CLI et le kit SDK peuvent être utilisés, par exemple, pour créer une connexion entre l'instance Snowflake et Azure ML ». Il ajoute qu’un data scientist pourrait interroger la connexion pour extraire les données requises dans le service de machine learning. « Si le scénario exige d'importer des données selon un calendrier, on peut utiliser des modèles populaires de cron ou de récurrence pour définir la fréquence d'importation ». Les crons [des petits scripts, NDLR] sont des utilitaires capables de programmer des tâches répétitives à un moment précis en saisissant un ensemble de commandes dans une CLI.

Une approche différente de Snowflake

Selon Tony Baer, analyste principal chez dbInsights, ces annonces d’intégration visent à aider les data scientist à améliorer leur productivité et à raccourcir leurs cycles de développement de produits ou d’entraînement de modèles ». Pour Doug Henschen, analyste principal chez Constellation Research, a reconnu que les outils seront utiles pour les scientifiques des données en particulier, notant que « toute entreprise utilisant Snowflake sur Azure bénéficiera d'une autre option bien intégrée pour faire de la data science avec les données gérées dans Snowflake ».

Selon les analystes, l'intégration de Microsoft adopte une approche différente de celle de Snowflake en matière d'apprentissage automatique. L’éditeur propose Snowpark, conçu pour laisser les développeurs appliquer leurs outils préférés en mode serverless sur le datawarehouse cloud de Snowflake. « Azure ML n'a pas suivi la voie de Snowpark. Au lieu de cela, Microsoft dit d'aller de l'avant et d'importer des données de Snowflake et de les traiter dans notre environnement, plutôt que d'implémenter les fonctions Azure ML en tant que fonctions définies par l'utilisateur (UDF) dans Snowpark. Ce n'est pas sans précédent, puisque H2O, partenaire de Snowflake, a adopté une approche similaire », explique Tony Baer.

Une fonctionnalité sur la gestion du cycle de vie

Parallèlement à l’intégration CLI et SDK, qui est encore en bêta publique, Microsoft a introduit une fonctionnalité de gestion du cycle de vie sur le datastore géré d'Azure ML, appelée « Hosted on Behalf of » ou datastore HOBO. Elle comprend notamment « une politique de suppression automatique d'une donnée importée si elle n'est pas utilisée pendant 30 jours par un travail est définie pour chaque donnée importée dans le magasin de données géré par AzureML. Il suffit de définir azureml://datastores/workspacemanagedstore comme chemin d'accès lors de la définition de l'importation et le reste sera pris en charge par AzureML », conclut Amar Badal.

Selon Doug Henschen, cette fonction est cruciale pour le développement, l'actualisation et le remplacement des modèles d'apprentissage automatique. La fonction de gestion du cycle de vie est elle aussi en avant-première publique, a indiqué Microsoft.