Nvidia au coeur des gigafactory IA avec Vera Rubin et Spectrum-XGS

Lors du sommet mondial de l'Open Compute Project qui se tient cette semaine du 13 au 16 octobre à San José en Californie, le spécialiste des GPU dévoile sa toute dernière architecture de superpuces.

Nvidia et sa philosophie « grid-to-chip » sont l’un des points forts du sommet mondial organisé cette semaine pour les membres de l'Open Compute Project (OCP). L'entreprise fera plusieurs annonces, notamment le lancement de Vera Rubin MGX, sa dernière architecture rassemblant CPU et GPU, et Spectrum-XGS Ethernet, un switch fabric pour les giga-usines d'IA. Tout cela s'inscrit dans une stratégie plus large de Nvidia qui cherche à se positionner comme élément incontournable de toute la stack hardware pour l'IA, en s'intégrant à toutes les couches, y compris les puces et les réseaux, jusqu'à l'infrastructure complète des centres de données et l'orchestration logicielle. « Les centres de données évoluent vers le giga-scale », a déclaré Joe Delaere, directeur senior du marketing produit chez Nvidia, avant l'événement. « Les usines d'IA qui fabriquent de l'intelligence génèrent des revenus, mais pour maximiser ces revenus, le réseau, le calcul, la mécanique, l'alimentation et le refroidissement doivent tous être conçus comme un tout. »

Les serveurs Vera Rubin NVL144 MGX pas avant fin 2026

Lors de l'événement, Nvidia prévoit de fournir des spécifications plus détaillées sur ses serveurs en racks à architecture ouverte Vera Rubin NVL144 MGX, même s'ils ne seront pas disponibles avant fin 2026. Le duo de puces Vera Rubin succède à la paire Grace Blackwell. Elle est spécialement conçue pour le traitement de « contextes massifs » afin d'aider les entreprises à accélérer considérablement la mise sur le marché de leurs projets d'IA. Vera Rubin MGX réunit les processeurs Vera et les accélérateurs Rubin CPX de Nvidia, qui utilisent tous le même rack MGX ouvert que Blackwell. Le système permet de nombreuses configurations et intégrations. « La plateforme MGX est une architecture de référence flexible et modulaire, basée sur des blocs de construction, pour la conception de serveurs et de racks, avec laquelle notre écosystème peut créer un grand nombre de configurations, et ce très rapidement », a rappelé M. Delaere. « Vera Rubin MGX offrira des performances près de huit fois supérieures à celles du GB 300 de Nvidia pour certains types de calcul », a-t-il ajouté. « L'architecture est refroidie par liquide et sans câble, ce qui permet un assemblage et une maintenance plus rapides. Les opérateurs peuvent rapidement combiner des composants comme des processeurs, des circuits graphiques ou des dispositifs de stockage, ce qui favorise l'interopérabilité », a encore fait valoir Nvidia. Matt Kimball, analyste principal des centres de données chez Moor Insights and Strategy, a souligné la modularité et la simplicité de la conception de la plateforme MGX. « Il simplifie considérablement le processus de fabrication », a-t-il reconnu. Pour les entreprises qui gèrent des dizaines, voire des centaines de milliers de racks, « cette conception offre un niveau d'efficacité opérationnelle qui se traduit par de réelles économies de temps et d'argent ». M. Kimball fait aussi remarquer que Nvidia fait également preuve d'innovation en matière de refroidissement. « Le refroidissement au niveau médian est une conception très propre et plus efficace ».

Pour répondre à la pression croissante sur les approvisionnements en électricité, un compromis s’est établi entre le coût des composants et leur efficacité énergétique, ce qui rend des puces comme les dernières de Nvidia plus attrayantes. Comme le souligne Brandon Hoff, directeur de recherche pour les technologies habilitantes chez IDC, « on obtient plus de jetons par watt ». Ajoutant que « l’on en est au point où les gens ont de l’argent, mais pas d'énergie. » En phase avec les avancées de Vera, Nvidia et ses partenaires se préparent pour l'ère du 800 VCC. Selon le fournissseur de Santa Clara, le passage des systèmes triphasés traditionnels de 415 VCA ou 480 VCA offre aux centres de données une plus grande évolutivité, une meilleure efficacité énergétique, la possibilité d’utiliser moins de matériaux et une capacité de performance accrue. « L'infrastructure avancée nécessaire a déjà été adoptée par les industries des véhicules électriques et de l'énergie solaire. Mais la transition nécessite la collaboration de tous les niveaux de la pile, et Nvidia travaille avec plus de 20 leaders du secteur pour créer un plan commun », a indiqué M. Hoff.

Un support pour les giga factory d'IA

En collaboration avec Vera Rubin MGX, Nvidia présentera cette semaine la prise en charge de l’Ethernet Spectrum-XGS pour l'Open Compute Project (OCP). Annoncé en août, le switch avancé Spectrum-XGS Ethernet fait partie de la plateforme réseau Spectrum-X Ethernet de Nvidia qui permet aux entreprises de connecter des centres de données distribués à travers les villes, les États et les continents en un seul fabric de calcul, base nécessaire à la création de giga-usines d'IA. « De nouveaux algorithmes ajustent automatiquement les performances des réseaux longue distance afin que les GPU, les serveurs et les centres de données répartis sur plusieurs zones géographiques fonctionnent comme une seule et même unité. Le système ajuste l'équilibrage de charge, les schémas de routage adaptatifs, les capacités de contrôle de la congestion, la télémétrie et d'autres facteurs, de sorte qu'il n'y ait pas de surcoût lié à la distance », a expliqué Nvidia.

Meta et Oracle sont les premiers utilisateurs de Spectrum-X. Meta intégrera les commutateurs Spectrum-X dans son infrastructure pour le système Facebook Open Switching System (FBOSS), qui gère et contrôle les commutateurs réseau à grande échelle. L'entreprise pourra ainsi « unifier les charges de travail d’IA et non IA sur une plateforme Ethernet collaborative et prête pour l'avenir », comme l’a déclaré M. Delaere. Oracle intégrera dans ses usines d'IA un Spectrum-X accéléré par Vera Rubin. « Le système Ethernet atteint un débit de données de 95 % sans aucune dégradation de la latence », a précisé M. Delaere. M. Hoff, d'IDC, a fait remarquer que la décision de Nvidia de dévoiler une feuille de route de quatre ans en mars 2025, lors de sa conférence GTC, correspond à la manière dont les entreprises planifient réellement leurs investissements en infrastructure, qui s'étendent souvent sur trois à cinq ans, voire plus. L'accélération du calcul implique le CPU, le GPU, le SmartNIC, la conception à l'échelle du rack et la pile logicielle. Selon M. Hoff, « Nvidia continue d'aller de l'avant sur tous les fronts et sera difficile à rattraper ».