Dans le flot d’annonces AWS lors de son évènement annuel Re:Invent qui se déroule à Las Vegas du 1er au 5 décembre, le fournisseur a fait un focus sur ses accélérateurs Trainium. Dédiés à l’entraînement des modèles d’apprentissage automatique, ils avaient vu le jour en 2020 avant d’évoluer au sein d’instances EC2. Aujourd’hui, le groupe dévoile la quatrième génération de Trainium et lance officiellement les instances EC2 Trn3 UltraServers équipées des puces Trainium 3.
Des instances sous Trainium 3 et GB300 NVL72
Cette dernière est gravée en 3 nm et intègre huit cœurs NeuronCore-v4. À l'instar de Trainium2, la troisième génération prend désormais en charge la configuration logique des NeuronCores (LNC), capable de combiner les ressources de calcul et de mémoire de plusieurs NeuronCores physiques en un seul NeuronCore logique. Les instances peuvent embarquer jusqu'à 144 puces Trainium3 dans un seul serveur Ultra et sont interconnectés via la technologie NeuronLink, qui, selon Amazon, double la bande passante entre les puces. Sur la partie mémoire, les instances peuvent embarquer 144 Go de HBM par puces et offrent une bande passante mémoire de 4,9 To/s . En FP8, les performances sont annoncées à plus de 2,5 Pflops soit le double de son prédécesseur.
En complément des instances Ultraserver avec Trainium 3, AWS lance une offre P6e-GB300, équipés de la plateforme Nvidia GB300 NVL72. À l'échelle du rack et refroidie par liquide, l’infrastructure réunit 72 GPU Blackwell Ultra, 36 CPU Nvidia Grace basés sur Arm et 36 DPU BlueField-3. Selon le fournisseur, l’instance offre une bande passante de 6,4 Tbps soit le double des P6-GB200. Les systèmes P6e-GB300 fonctionnent sur le système Nitro d’AWS (brique logicielle et matérielle qui améliorent les performances, la disponibilité et la sécurité). Par ailleurs, ils s'intègrent étroitement à des services tels qu’Elastic Kubernetes Service pour déployer des charges de travail d'inférence à grande échelle.
L’accélérateur Trainium 4 adopte NVLink Fusion de Nvidia
Le partenariat avec Nvidia ne s’arrête pas là. AWS a en effet dévoilé la prochaine évolution de l’accélérateur Trainium. La version 4 sera la première à adopter la technologie d’interconnexion NVLink Fusion de Nvidia pour la communication entre puces. Pour rappel, NVLink est une technologie d'interconnexion haut débit permettant à plusieurs GPU répartis sur différents systèmes de mutualiser leurs ressources et de fonctionner comme un seul accélérateur. Auparavant réservée aux CPU et GPU Nvidia, cette technologie a été ouverte à d'autres fournisseurs en mai dernier avec le lancement de NVLink Fusion au Computex. Dans sa configuration actuelle, l'interface NVLink de cinquième génération de Nvidia prend en charge jusqu'à 1,8 To/s de bande passante (900 Go/s dans chaque sens) par GPU, mais l'entreprise prévoit de doubler ce débit pour atteindre 3,6 To/s d'ici l'année prochaine. Pour Nvidia, ce partenariat est important pour renforcer son écosystème NVLink face à des initiatives concurrentes comme UALink.
Sur les autres détails de Trainium 4, AWS est resté dans le flou. Le fournisseur prévoit trois fois plus d’opérations en FP8, six en FP4 et quatre fois plus de bande passante mémoire sans dire si ces performances concernent les puces ou les systèmes Ultraserver. Si on retient ce dernier, les performances de calcul en FP4 pourraient atteindre plus de 2 exaflops et une bande passante mémoire de 2,8 pétaoctets par seconde.

Commentaire