GTC 26 : Nvidia renforce ses architectures pour l'inférence et le stockage IA

Cette année, Nvidia a renouvelé ses offres d'infrastructures pour répondre aux besoins des traitements IA avec un focus particulier sur les tâches d'inférence à grande échelle. Parmi les derniers produits présentés à la GTC 2026 : un serveur DGX Vera Rubin NVL72 associé à des accélérateurs LPU Groq3 LPX, un rack BlueField-4 STX pour accélérer le stockage, et un switch Spectrum-6 SPX pour le réseau.

La GTC 2026 bat son plein avec bien sûr comme principale mantra pour Nvidia l'IA, qui s'accompagne sans surprise d'une salve de produits. Le déploiement de systèmes multi-agents nécessitant de traiter à la fois en plus grand nombre et de façon plus rapide des tokens, le fournisseur de Santa Clara répond à cet enjeu en couplant des accélérateurs LPU Groq 3 à ses puces Vera/Rubin (CPU et GPU). "Nous avons exploité la SRAM à large bande passante des LPU Groq avec celle des GPU. Et ensemble, du pré-remplissage au décodage, nous sommes en mesure d'offrir un débit de jetons extrême, soit jusqu'à 35 fois plus de jetons, tout en offrant plus de capacités de traitements IA", nous a expliqué un porte-parole de Nvidia à l'occasion d'un point presse ce mardi matin.

Un DGX Vera Rubin NVL72 associé à Groq3 LPX

Pour répondre aux exigences de l'IA agentique à plus grande échelle, Nvidia a donc aussi logiquement adossé son serveur DGX Vera Rubin NVL72 à un rack Groq3 LPX intégrant 32 plateaux contenant chacun 8 accélérateurs LPU. En couplant des LPU à large bande passante utilisant uniquement de la SRAM avec des GPU Rubin dotés d'une grande capacité HBM, le système apporte ainsi une faible latence et un débit élevé sur des contextes de grande longueur. "Cela permet d'accélérer les traitements pas seulement sur de petits modèles, mais sur des modèles extrêmement volumineux, comptant des milliards de milliards de paramètres, avec un contexte d’entrée massif, pouvant atteindre un million de tokens", poursuit le porte-parole. La personnalisation des configurations reste bien entendu de mise pour répondre aux besoins et usages : "le rapport entre les GPU et les LPU dépend vraiment du flux de travail et du type d'inférence que l'on souhaite proposer. Nous allons travailler avec tous les fabricants pour leur fournir un bon ratio entre les configurations proposant une inférence relativement moins interactive mais à plus haut débit ou une inférence haut de gamme, rapide et à haut débit mais beaucoup plus intelligente".

Un serveur DGX Vera Rubin NVL 72 couplée à un rack Groq 3 LPX à 32 plateaux. (crédit : DF)

Un rack BlueField-4 STX pour accélérer le stockage

Architecture de référence taillée pour le stockage destiné à l'IA, BlueField-4 STX repose sur le processeur BlueField-4 qui combine le CPU Vera et le SuperNIC ConnectX-9, le tout étant mis en réseau via une interconnexion Ethernet Spectrum-X. Côté stockage, il fait appel à la dernière infrastructure native pour l'IA de Nvidia, à savoir le CMX content memory storage, qui étend la capacité contextuelle des GPU et accélère l'inférence en déchargeant le key value cache [Le KV Cache ou Key-Value Cache est une technique d'optimisation fondamentale pour accélérer l'inférence des grands modèles de langage (LLM) basés sur l'architecture Transformer NDLR] vers une couche de stockage dédiée à haut débit. Avec à la clé jusqu'à 5 fois plus de tokens par seconde et une efficacité énergétique jusqu'à 5 fois supérieure à celle des systèmes de stockage traditionnelles selon le fournisseur. "Le stockage a une fonction vitale dans toutes les charges de travail de networking et d'IA", assure Yaël Chennar, vice-présidente de l'activité Ethernet NIC et DPU chez Nvidia. "La place du contexte devient de plus en plus grande et peut gaspiller des cycles de GPU rendant la mémoire de travail pas très efficace d'un point de vue énergétique ce qui n'est pas du tout le cas avec notre capacité de stockage key value cache ".

Il y a vraiment une dynamique qui est très intéressante, assure Yael Shenhav, vice-présidente de l'activité Ethernet NIC et DPU chez Nvidia, à propos de l'adoption par les clients et partenaires de son design de référence de baie CMS. (crédit : DF)

L'architecture CMX est proposée en tant que design de référence et s'intègre dans la hiérarchie mémoire des pods Nvidia à plusieurs niveaux :

- G1 — HBM GPU : key value cache actif, latence critique

- G2 — RAM système : staging et buffering key value cache hors HBM

- G3 — SSD locaux : key value cache « chaud » réutilisé à court terme (limité au nœud)

- G3.5 (CMX) — Flash Ethernet partagé au niveau du pod : contexte long terme des agents

- G4 — Stockage objet/fichier durable : historique persistant multi-sessions

A charge donc pour les partenaires de l'incrémenter dans leurs propres châssis, ce qui est le cas des premières références SuperMicro et Quanta mais bien d'autres travaillent aussi dessus (DDN, Dell, HPE, NetApp, Weka, Vast...). " Il y a beaucoup de cas d'usage très variés, de gros fournisseurs cloud, aux spécialistes IA en passant par les entreprises [...] Il y a vraiment une dynamique qui est très intéressante", continue Yaël Chennar. Parmi les cloud providers on trouve notamment CoreWeave et Oracle Cloud, mais pas de trace d'AWS, Google Cloud ou Microsoft Azure pour autant.

Le rack BlueField-4 STX CMX content memory storage couplé à une armoire réseau Spectrum-6 SPX. (crédit : DF)

Jusqu'à 102,4 Tb/s pour le switch Spectrum-6 SPX

Côté réseau, on retiendra l'annonce du switch Spectrum-6 SPX conçue pour accélérer le trafic au sein des usines IA. Configurable avec des commutateurs Spectrum-X Ethernet ou Quantum-X800 InfiniBand, il apporte une connectivité rack-à-rack à faible latence et haut débit à grande échelle pouvant atteindre 102,4 Tb/s (512 voies et modules optiques intégrés (CPO) de 200 Gb/s). Ainsi que du design de référence STX, basée sur Vera Rubin, les BlueField-4 et la technologie de mise en réseau Spectrum-X.

Annoncés à la GTC 2025, les switchs Spectrum-X Photonics Ethernet de Nvidia sont donc désormais commercialisés. Pour rappel ils sont conçus pour les centres de données IA et sont dotés d'une bande passante nettement supérieure aux configurations habituelles en incluant 128 ports 800G ou 512 ports 400G ou 200G. Pour les déploiements à plus grande échelle, Spectrum-X peut être étendu à 512 ports 800G ou 2 048 ports 200G. Taillé pour l'entraînement et l'inférence de modèles IA, le switch Quantum-X Infiniband dispose lui de 144 ports 800G et utilise un SerDes (serialiseur/deserialiseur) de 200 Gbt/s pour optimiser les performances.

Le modèle SN6800 de la gamme de switchs Spectrum-X Ethernet Photonics de Nvidia. (crédit : DF)