Les commandes d'instances Graviton et Trainium explosent chez AWS

Poussé par les besoins en calcul pour l'IA, AWS voit croître fortement les demandes d'instances sur Graviton, le CPU basé sur Arm et l'accélérateur Trainium. Le fournisseur de services cloud est même obligé de décliner certaines commandes.

Dans son rapport annuel, AWS montre que l’activité puces (Graviton, CPU basé sur Arm et Trainium, accélérateur IA) est « en pleine effervescence ». Elle dépasse désormais les 20 milliards de dollars de revenu et affiche une croissance à trois chiffres d'une année sur l'autre. Les clients sont tellement avides de capacités de calcul qu’ils cherchent à acheter tout ce qui est actuellement disponible reconnait le CEO Andy Jassy dans un document adressé aux actionnaires. Pour répondre à cette demande, le dirigeant s’est engagé dans des investissements massifs pour augmenter les capacités. « En 2025, AWS a accru sa capacité d'alimentation de 3,9 GW et prévoit de doubler sa capacité totale d'ici fin 2027 », écrit-il aux actionnaires.

Une forte demande sur les CPU Graviton

« Pourtant, nous sommes toujours confrontés à des contraintes de capacité qui entraînent une demande non satisfaite », a-t-il ajouté. Il a notamment révélé que deux gros clients sans citer de nom avaient un tel besoin de puissance de calcul pour l'IA qu'ils avaient demandé à acheter la totalité de la capacité d'instances Graviton disponible en 2026, la puce CPU basée sur Arm du fournisseur. Mais Andy Jassy souligne qu’il ne pouvait accéder à ce genre de demandes, compte tenu des besoins des autres clients. « Le fait que deux gros clients demandent à acheter toute la capacité Graviton pour 2026 en dit long sur l’état actuel du marché », a relevé Matt Kimball, vice-président et analyste principal chez Moor Insights & Strategy. Et selon lui, il ne s’agit pas nécessairement d’une simple question de chaîne d’approvisionnement, mais davantage d’une question de « dépendance stratégique ».

Les entreprises ne se contentent pas d’acheter de la puissance de calcul, elles tentent de s’assurer des capacités avant qu’un concurrent ne le fasse. « Le risque pour AWS n’est pas de ne pas parvenir à produire assez rapidement, mais plutôt que des clients pourraient se tourner vers Azure ou Google Cloud Platform (GCP) », a-t-il souligné. Cela indique également à quel point Graviton est devenu populaire et laisse penser qu’AWS pourrait avoir du mal à répondre à la demande. Au lieu d’être utilisées comme des « puces légères prenant en charge des charges de travail légères », Graviton sert pour des charges de travail « aux profils de calcul très divers », a déclaré M. Kimball. « À mesure qu’ils arriveront à maturité, les processeurs Cobalt de Microsoft et Axion de Google Cloud connaîtront probablement le même type de demande, ce qui créera une « dynamique de marché intéressante » entre les technologies Arm et x86 », a-t-il expliqué. Scott Bickley, conseiller pour Info-Tech, a reconnu que l’impact des contraintes de la chaîne d’approvisionnement sur le développement de l’IA était « vaste et profond ». Même si des rapports indiquent que 50 % de la capacité prévue des datacenters ne sera pas effective en 2026, « toutes les capacités sont vendues sur l’ensemble du marché ».

Beaucoup de réservations pour l’accélérateur Trainium

Selon M. Jassy, l'activité de puces d'Amazon connaît donc une forte « effervescence ». Même si AWS entretient un partenariat solide avec Nvidia et utilise ses semi-conducteurs, il note un « nouveau tournant » dans le paysage des processeurs, les clients recherchant un meilleur rapport qualité-prix. Il convient de préciser que fin 2024, Amazon a lancé la deuxième génération de son accélérateur IA, Trainium2, et que Bedrock exécute désormais la plupart de ses inférences sur ces composants. M. Jassy a affirmé que Trainium2 offrait un rapport prix/performance supérieur d’environ 30 % à celui des GPU comparables, et qu’il est « pratiquement en rupture de stock ». Par ailleurs, les instance Trainium3, dont la livraison vient de commencer, sont déjà « presque entièrement réservées », a-t-il indiqué. De plus, une part importante de la capacité d'instances Trainium4, dont la commercialisation à grande échelle n’est prévue que dans 18 mois environ, a déjà été réservée. « La demande pour nos puces est telle qu’il est tout à fait possible que nous en vendions des racks à des tiers à l’avenir », n’a pas exclu le dirigeant.

Scott Bickley, d’Info-Tech, estime par ailleurs qu’Amazon ne cherche pas nécessairement à éliminer Nvidia, mais plutôt à réduire sa dépendance vis-à-vis de ce dernier dans les domaines « où AWS peut l’emporter sur le plan économique ». Et selon lui, même si le fournisseur reste un partenaire solide de Nvidia, il peut proposer une offre à valeur ajoutée qui se distingue par son rapport qualité-prix. La société propose une « offre globale » grâce à une intégration étroite avec Bedrock, des interconnexions conçues par AWS, une économie des tokens plus efficace et une pile logicielle reposant sur des workflows standard PyTorch/JAX/vLLM. « L'entraînement et l'inférence pour les grands modèles de langage (LLM), les modèles multimodaux dont le nombre de paramètres s'étend de plusieurs centaines de milliards à plus de mille milliard sont les principaux cas d’usage de Trainium », a expliqué l’analyste. Des grands noms comme Anthropic et Uber « mettent à l'épreuve les promesses d'efficacité d'AWS », a-t-il ajouté.

En revanche, des clients comme Cohere et Stability AI préfèrent le framework d'outils mature de Nvidia et ses « conceptions de puces supérieures », invoquant des problèmes de service et de disponibilité chez AWS. M. Kimball, de Moor Insights & Strategy, évoque un autre facteur à prendre en compte : le partenariat d’AWS avec Cerebras. Trainium est optimisé pour le pré-remplissage et Cerebras CS-3 pour le décodage, ce qui permet aux deux de fournir ce qu’ils prétendent être les meilleures performances d’inférence sans intervention de l’utilisateur. « C’est le genre de simplicité « pointer-cliquer » que recherchent les utilisateurs en entreprise », a-t-il souligné. « En quelque sorte, M. Jassy établit un parallèle direct entre la migration de l’inférence de x86 vers Graviton et celle de Nvidia vers Trainium », a-t-il déclaré. L’inférence est la « charge de travail qui connaît la croissance la plus rapide et qui est la plus sensible aux coûts dans l’IA d’entreprise, et c’est exactement là que Trainium gagne le plus de terrain ».

Les leçons de l’évolution de Mantle

Le CEO d'Amazon pense également qu’il est très important de pouvoir revenir à la case départ pour « revoir la trajectoire ». Par exemple, Bedrock a été développé rapidement et a évolué « plus vite que prévu », et l'équipe s'est rendu compte qu'il fallait un tout autre type de moteur d'inférence, et pas seulement une simple mise au point. L'équipe Bedrock a rapidement constitué un groupe de six « ingénieurs hautement qualifiés » utilisant Kiro, le service de codage agentique d'AWS, pour livrer le moteur Mantle en 76 jours. « Depuis, Mantle est devenu la colonne vertébrale de Bedrock, qui a traité plus de tokens au premier trimestre 2026 que ce qui avait été traité au cours de toutes les années précédentes combinées », a affirmé Andy Jassy. La capacité d’une petite équipe à mener à bien une refonte d’une telle ampleur en si peu de temps, tout en ajoutant des fonctionnalités telles que la gestion des conversations avec état, l’inférence asynchrone et les quotas par défaut plus élevés, entre autres, est « impressionnante à première vue », a reconnu M. Bickley d’Info-Tech. « Il faut donc considérer Mantle comme un produit clé pour l’inférence à part entière », a-t-il estimé.

Pour sa part, Matt Kimball met l’accent sur la genèse à deux niveaux de Mantle, l'un, d'ordre opérationnel (Bedrock avait besoin d'une autre architecture) et l'autre, axé sur la compression de la productivité. « Si six ingénieurs équipés d’outils autonomes peuvent accomplir plus rapidement ce que 40 n’auraient pas pu faire, cela bouleverse fondamentalement les questions de taille des équipes, de délais des projets et les décisions d’opter pour le développement en interne ou l’achat de solutions prêtes à l’emploi », a-t-il déclaré. « Les chiffres relatifs au volume de tokens rendent le résultat clair et convaincant. » Mais Mantle n’est pas seulement une refonte, c’est une preuve que le développement assisté par l’IA est en train de redéfinir les limites du possible. « Pas uniquement en théorie ou dans un slogan marketing, mais en production », a-t-il poursuivi. « Les progrès ne seront pas linéaires. Il y aura des moments d’accélération et des moments où nous ajusterons le cap. Nous expérimenterons, investirons de manière disproportionnée dans ce qui compte, et nous ferons marche arrière lorsque quelque chose ne fonctionnera pas », a écrit M. Jassy.