AWS renforce les capacités de Sagemaker avec des des plans d'entraînement adaptatifs (flexible training plans, FTP) pour les points de terminaison d'inférence. Objectif : fournir aux entreprises des instances et capacités GPU garanties pour leurs projets ayant besoin de tenir la charge ou en cas de pics de production. Les sociétés utilisent des points pour déployer des modèles d'apprentissage entraînés dans le cloud et effectuer des prédictions à grande échelle sur d'autres données. Par exemple, une entreprise de commerce de détail peut s'en servir pour alimenter son moteur de recommandations personnalisées : alors que des millions de clients parcourent les produits dans différentes régions, ces endpoints adaptent automatiquement la puissance de calcul et le stockage pour gérer les pics de trafic sans que l'entreprise ait besoin de gérer les serveurs ou de planifier leur capacité. Jusqu'à présent, le fournisseur ne proposait que des plans d'entraînement fixes pour garantir un accès prévisible aux ressources IT dans des délais et des budgets spécifiques, sans avoir à gérer l'infrastructure sous-jacente.
La nature auto-adaptative des endpoints d'inférence peut cependant s'avérer insuffisante dans plusieurs situations auxquelles les entreprises peuvent être confrontées. Notamment les workloads nécessitant une faible latence et des performances élevées constantes, les environnements de test et de pré-production critiques où la disponibilité des ressources doit être garantie, et toute situation où un temps d'évolutivité lent n'est pas acceptable et pourrait nuire à l'application ou à l'activité. Selon le fournisseur, ses FTP pour les charges de travail d'inférence peuvent résoudre ce problème en donnant aux entreprises la capacité de réserver des types d'instances et les GPU nécessaires, car la mise à l'échelle automatique ne garantit pas la disponibilité instantanée des GPU en raison d'une demande élevée et d'une offre limitée. « La prise en charge des flexible training plans pour l'inférence de SageMaker AI est disponible dans les régions US East (Virginie du Nord), US West (Oregon) et US East (Ohio) », a déclaré AWS.
Réduire la charge opérationnelle et les coûts
Selon les analystes, la garantie de disponibilité des GPU résout les principaux défis de mise à l'échelle des charges de travail d'IA et d'apprentissage automatique auxquels les entreprises sont confrontées. « Le changement le plus important concerne la fiabilité », a déclaré Akshat Tyagi, directeur adjoint chez HFS Research. « Avant cette mise à jour, les entreprises devaient déployer des endpoints d'inférence et espérer que les instances GPU requises soient disponibles. Lorsque les GPU étaient rares, les déploiements échouaient ou étaient retardés. Désormais, elles peuvent réserver la capacité GPU exacte plusieurs semaines ou mois à l'avance. Ce facteur peut être très important pour les équipes qui exécutent des LLM, des modèles de vision ou des tâches d'inférence par lots où les temps d'arrêt ne sont pas envisageables. » Charlie Dai, analyste principal chez Forrester, estime que cette fonction supplémentaire est « un pas significatif » vers la maîtrise des coûts, car elle rend les coûts opérationnels IA plus prévisibles : « Les clients peuvent aligner leurs dépenses sur leurs modèles d'utilisation et éviter le surprovisionnement, ce qui réduira les coûts d'inactivité », a déclaré M. Dai.
M. Tyagi fait remarquer qu'en réservant des capacités à l'avance, les clients AWS peuvent bénéficier d'un tarif engagé inférieur à celui pratiqué à la demande, bloquer les prix pour une période déterminée, éviter les dépenses de dernière minute ou le passage à des types d'instances plus coûteux, et planifier leurs budgets avec plus de précision, car les dépenses sont fixées à l'avance. « La possibilité de réserver des instances pourrait également éviter aux entreprises de « faire fonctionner » des points de terminaison d'inférence 24/7, par crainte de ne pouvoir les sécuriser en cas de besoin, ce qui en soi entraîne davantage d'indisponibilité », a ajouté M. Tyagi. AWS n'est pas le seul hyperscaler à proposer de réserver des instances pour les charges de travail d'inférence. Alors que Microsoft Azure offre une capacité réservée pour l'inférence via Azure Machine Learning, Google Cloud propose des remises pour utilisation engagée pour Vertex AI.