De plus en plus d’entreprises cherchent à créer ou à personnaliser des modèles d’IA. Pour répondre à cette demande, Google Cloud propose Vertex AI Training, un service qui accélère et facilite la formation de modèle à grande échelle. Désormais, les entreprises pourront accéder à des clusters de calcul via un environnement Slurm (ordonnateur open source des tâches) managé, ainsi qu'à des outils de surveillance et de gestion intégrés pour simplifier les tâches d’entraînement complexes. « Vertex AI Training offre un large choix de personnalisation des modèles », a écrit Google dans un article de blog. « Cela va des réglages légers et économiques comme LoRA pour le raffinement rapide du comportement de modèles tels que Gemini, jusqu'à l’entraînement à grande échelle de modèles open source ou personnalisés sur des clusters pour une spécialisation complète du domaine. »
Toujours selon le fournisseur, les dernières capacités de Vertex AI Training mettent l'accent sur une infrastructure flexible, des outils avancés de datascience et des frameworks intégrés. Les entreprises peuvent rapidement mettre en place des environnements Slurm gérés avec une résilience automatisée et une optimisation des coûts via un planificateur de charge de travail dynamique (Dynamic Workload Scheduler, WDS). La plateforme comprend également le réglage des hyperparamètres, l'optimisation des données et des recettes intégrées avec des frameworks comme NeMo de Nvidia pour rationaliser le développement des modèles.
Évaluation des gains relatifs à la formation de l’IA
La création et la mise à l'échelle de modèles d'IA générative exigent d'énormes ressources et pour de nombreuses entreprises, le processus peut être lent et complexe. Dans son article, Google souligne que les développeurs passent souvent plus de temps à gérer l'infrastructure, notamment à traiter les files d'attente de tâches, à provisionner les clusters et à résoudre les dépendances, qu'à innover réellement dans les modèles. Les analystes pensent que l'extension de Vertex AI Training pourrait changer la façon dont les entreprises abordent le développement de modèles à grande échelle. « Le service Vertex AI Training mis à niveau renforce la position de Google dans la course à l'infrastructure IA d'entreprise », a déclaré Tulika Sheel, vice-présidente senior chez Kadence International. « En proposant une formation gérée à grande échelle avec des outils tels que Slurm, Google comble le fossé entre les clouds hyperscale et les NCP comme CoreWeave ou Lambda Labs. Il offre aux entreprises une option plus intégrée, conforme et native de Google pour les charges de travail d’IA hautes performances, ce qui pourrait intensifier la concurrence au sein de l'écosystème cloud. »
D'autres font remarquer que la décision de Google d'intégrer Slurm directement dans Vertex AI Training est plus qu'une simple mise à jour de produit. Elle représente un changement dans la manière dont la société positionne sa pile cloud pour l'IA à l'échelle de l'entreprise. « En intégrant Slurm à la même plateforme qui gère la préparation des données, le suivi des expériences et le déploiement des modèles, Google évite les problèmes responsables des retards de livraison dans le monde réel », a expliqué Sanchit Vir Gogia, analyste en chef et CEO de Greyhound Research. « Les équipes ont désormais la possibilité de lancer des tâches d’entraînement complexes sans compromettre leur modèle de sécurité ni créer un deuxième pipeline. On pourrait penser que c’est une solution technique, mais ce n'est pas le cas : c'est une stratégie. »
Des bénéfices, mais pas pour tout le monde
Si cette mise à jour élargit l'éventail des options de développement de modèles disponibles, toutes les entreprises n'en profiteront pas de la même manière. « Pour la plupart des sociétés, la formation de modèles à partir de zéro reste coûteuse et nécessite beaucoup de ressources », a rappelé Mme Sheel. « L'ajustement des modèles de fondation existants ou l'adoption de méthodes de génération à enrichissement contextuel (Retrieval-Augmented Generation, RAG) permettent toujours d'obtenir des résultats plus rapides et un meilleur retour sur investissement. Vertex AI Training peut séduire davantage les entreprises avancées qui recherchent un contrôle personnalisé, mais le marché dans son ensemble restera probablement fidèle à l'ajustement plutôt qu'à la formation complète. »
Selon M. Gogia, même si la mise à niveau allège le travail de configuration, les questions essentielles n'ont pas changé, en particulier, savoir si l’entreprise dispose des données, de l'équipe et de la maturité de gouvernance nécessaires pour que la préformation complète du modèle en vaille la peine. « Il est tentant de penser qu’en créant son propre modèle on peut avoir plus de contrôle », a expliqué M. Gogia. « Dans la pratique, cela entraîne souvent plus de risques que d'avantages. De nombreuses entreprises qui s'engagent dans cette voie se heurtent à des problèmes auxquels elles ne s'attendaient pas : des critères d'évaluation mal alignés, des exigences de rédaction peu claires et des retards dans les approbations en raison d'ambiguïtés dans la conformité. »
D’autres modalités d’usage du cloud
Alors que de plus en plus d’entreprises cherchent un équilibre entre personnalisation et coût, l'impact global pourrait s'étendre au-delà du développement de l'IA lui-même pour toucher les stratégies cloud et les priorités en matière de dépenses. « Faciliter la formation à grande échelle pourrait stimuler la demande en GPU et en calcul haute performance à court terme », a avancé Mme Sheel de Kadence International. « Cependant, cela pourrait également pousser les sociétés à optimiser plus soigneusement leurs charges de travail et leurs budgets, en choisissant des déploiements flexibles ou hybrides. » À terme, cela pourrait déboucher sur une concurrence accrue en matière de prix et d'innovation entre les fournisseurs de cloud, les entreprises recherchant à la fois l'efficacité et l'évolutivité. En écho aux propos de Mme Sheel, M. Gogia a déclaré qu'avec Vertex AI Training et Slurm géré, les équipes peuvent désormais déployer des clusters de plusieurs milliers de GPU en quelques jours au lieu de plusieurs semaines, ce qui leur permet d'aligner l'utilisation des ressources de calcul sur le calendrier des projets et d'éviter de surcharger les ressources.

Commentaire