Face à la croissance des agents IA et des besoins d’interactions, AWS a décidé d’étendre les quotas d’exécution dans Bedrock AgentCore. La plateforme de développement et de déploiement d’IA agentique est dorénavant capable de gérer « jusqu’à 5 000 sessions actives simultanées dans les régions USA Est (Virginie du Nord) et USA Ouest (Oregon), et 2 500 dans toutes les autres régions prises en charge (contre respectivement 1 000 et 500 auparavant) », indique le fournisseur de services cloud.

Il a également augmenté la capacité de traitement des interactions pour chaque agent IA, la faisant passer de 25 à 200 jetons par seconde dans toutes les régions prises en charge ; une mesure qui, selon lui, permettra aux entreprises de gérer un plus grand nombre de requêtes utilisateurs simultanées. Par ailleurs, pour aider les entreprises à faire monter en charge leurs applications IA plus rapidement lors des pics de demande, la société a quadruplé la cadence de création de nouvelles sessions d'agents d'IA pour les déploiements par conteneurs, portant la limite de 100 à 400 transactions par minute (TPM).

Réduire la charge administrative de l’extension des capacités

Pour Charlie Dai, analyste principal chez Forrester, cette modification des quotas d'exécution d'AgentCore constitue la réponse d’AWS au passage rapide des entreprises de l'expérimentation d'agents d'IA au déploiement en production. « Dans nos échanges avec les clients, le changement majeur ne réside pas tant dans le nombre d'agents que dans la transition de copilotes à tâche unique vers de multiples agents de qualité industrielle, au service de populations d'utilisateurs plus vastes. » Cela signifie qu'AWS constate une concurrence accrue, des agents dont la durée d'exécution est plus longue et des schémas d'orchestration plus complexes, dépassant les hypothèses initiales, a précisé M. Dai.

Pour les entreprises opérant cette transition, ces quotas par défaut plus élevés contribueront, selon Ashish Banerjee, analyste principal chez Gartner, à réduire les frictions opérationnelles liées au passage à l'échelle des agents IA, depuis les projets pilotes jusqu'aux déploiements en production. C’est d’autant plus vrai pour les systèmes multi-agents, car ils dépassent rapidement les limites d’exécution par défaut, obligeant les entreprises à demander un relèvement de ces plafonds, explique Amit Chandak, directeur de l'analyse au cabinet de conseil informatique Kanerika. « Dans un environnement d'entreprise, une demande d'augmentation de quota implique l'ouverture d'un ticket de support, une justification commerciale et un processus de validation. Cela représente des jours, voire des semaines de travail administratif pour une question qui ne devrait pas entraver un déploiement », souligne le responsable. « Au-delà du coût administratif de la procédure, les équipes conçoivent leurs architectures en fonction du plafond par défaut. Des seuils par défaut plus élevés modifient ce que les équipes sont prêtes à tenter sans déclencher une procédure d'exception ; cela influence donc les décisions architecturales, et pas seulement les opérations quotidiennes », ajoute-t-il.

Des approches différentes selon les hyperscalers

Les avantages vont bien au-delà de la simple réduction de la charge administrative, précise M. Chandak, car l'épuisement des quotas d'exécution en production peut interrompre les applications destinées aux clients ainsi que les workflows multi-agents. « Les sessions d'agents conservent un état (stateful). Si une session est bridée en pleine tâche, l'agent risque de perdre le contexte intermédiaire ; or, reconstituer cet état est bien plus complexe que de relancer un appel API sans état (stateless) », fait remarquer le dirigeant. Toutefois, ces bénéfices ne seront probablement pas uniformes d'une entreprise à l'autre. Selon Gaurav Dewan, directeur de recherche chez Avasant, ce sont les entreprises gérant des charges de travail IA à forte concurrence et à haute intensité transactionnelle qui tireront le meilleur parti de quotas par défaut plus élevés. Cela concerne notamment les services clients et les centres de contact, l'automatisation du codage et du DevOps, les opérations IT et les processus financiers, l'administration de la santé, la coordination de la chaîne d'approvisionnement et les opérations de sécurité, domaines où des agents IA opèrent souvent simultanément à grande échelle, précise M. Dewan.

AWS n’est toutefois pas le seul acteur à adapter son infrastructure pour aider les entreprises à déployer des agents IA à grande échelle en production ; ses concurrents, tels que Microsoft et Google, abordent ce défi de manières différentes. L'approche de Microsoft avec le service Azure Foundry Agent Service diffère de celle d'AWS, selon M. Chandak : « Bon nombre de ses limites d'exécution d'agents sont fixes par conception ; elles ne peuvent pas être augmentées, même sur demande. » « Au lieu de cela, Microsoft place la flexibilité de mise à l'échelle au niveau du déploiement du modèle — où les quotas sont ajustables — plutôt qu'au niveau de l'exécution de l'agent. Il s'agit d'une différence architecturale délibérée par rapport à l'approche d'AWS avec AgentCore, qui consiste à relever le seuil minimal de sessions simultanées au niveau de l'exécution », a souligné Chandak. Les nouveaux plafonds de quotas pour Bedrock AgentCore s'appliqueront automatiquement à tous les comptes.