Comment se porte la branche networking de Nvidia ?
Gilad Shainer. Cette activité se situe autour de 11 Md$, le segment réseau est très important pour nous. Il faut comprendre que les usines IA constituent aujourd’hui des centres de calculs. Autrefois, on considérait le CPU comme l'unité de calcul, mais aujourd’hui, un seul processeur ne suffit plus à traiter la charge de travail. Celle-ci s’exécute sur l’ensemble du centre de données et de l’usine IA, ce qui signifie que celle-ci est devenue l’unité de calcul. Et pour faire d'une usine IA une unité de calcul, il faut connecter tous ses moteurs et puces de calcul. Il y a donc beaucoup de GPU et il faut les relier entre eux pour en faire une seule unité. Par conséquent, la manière dont vous connectez les GPU détermine ce que cette usine IA peut faire. C'est pourquoi le réseau est, à mon sens, l'élément le plus important. L'infrastructure est la chose la plus importante quand on construit une usine IA. Et ce réseau peut déterminer si l'on a simplement une ferme de serveurs ou si l'on a un supercalculateur IA. Tout repose sur le réseau. C'est pourquoi on voit autant d'investissements dans les réseaux dans l'infrastructure.
Comment a évolué la R&D réseau et recrutez-vous dans ce domaine ?
Nous élargissons l'équipe, nous continuons à nous développer, et il y a de plus en plus à faire. Alors oui, nous sommes toujours à la recherche de personnes talentueuses pour rejoindre notre équipe. Ce n'est pas comme si les réseaux ou l'infrastructure restaient figés. Il faut continuer à les faire évoluer de génération en génération. Nous lançons de nouvelles technologies à un rythme annuel. Cela signifie que chaque année, il y a une nouvelle plateforme, puis chaque année, il y a un nouveau produit réseau, pas seulement scale-out ou scale-up, mais aussi transversal, comme cette année, en étant couplée à une nouvelle infrastructure de stockage axée sur l'inférence (CMX), qui est en pleine croissance. Or la quantité de stockage utilisée pour stocker le contexte du Key Value cache [Le KV Cache ou Key-Value Cache est une technique d'optimisation fondamentale pour accélérer l'inférence des grands modèles de langage (LLM) basés sur l'architecture Transformer NDLR] n'est plus suffisante. Vous avez donc besoin de plus de stockage, mais vous souhaitez intégrer l'intégrer à des fins d'inférence pour être économe en énergie. C'est pourquoi nous avons innové et créé cette infrastructure de stockage. Il y a donc de nouvelles infrastructures, une nouvelle génération chaque année, et bien sûr, il faut investir beaucoup pour y parvenir. En intégrant les composants optiques, nous évoluons horizontalement puis verticalement, et ainsi de suite.
La norme OSFP (Octal Small Form-factor Pluggable) de transcepteur compact à haut débit est conçue pour les réseaux de centres de données à 400 et 800 Gbit/s ainsi que 1,6 Tbit/s voire plus : où en êtes-vous ?
Aujourd'hui, le module de transmission que nous utilisons est de 1,6 Tbit/s. Ce module dispose en fait de deux ports de 800G, mais il s'agit d'un seul module de 1,6 Tbit/s auquel sont connectées deux fibres, une pour l'entrée et une pour la sortie. Dans la génération précédente, nous utilisions des émetteurs-récepteurs de 800G, mais si vous regardez les nouveaux commutateurs, les émetteurs-récepteurs sont de 1,6 Tbit/s. Nous avions donc bien des émetteurs-récepteurs 800G dans la génération précédente mais la nouvelle est désormais constituée d'émetteurs-récepteurs 1,6 Tbit/s.
Envisagez-vous d'étendre le refroidissement liquide aux modules OSFP ?
Dans notre boîtier central de commutation optique, les commutateurs sont refroidis à 100 % par liquide. Or, ceux-là n’ont en gros pas de connecteur OSFP, parce qu’on y branche directement le câble optique, ce qui veut dire qu’ils ont des connecteurs MPO (multi-fiber push-on) ou MMC (miniature multi-fiber connector). Mais le commutateur lui-même, tous les composants, les sources laser, et tout ce qu'il y a à l'intérieur, est refroidi à 100 % par liquide. Nous proposons également un refroidissement à 100 % par liquide pour les commutateurs enfichables, ce qui signifie que lorsque vous branchez le tout, tout est refroidi par liquide. Nos commutateurs sont donc 100 % équipés de refroidissement par liquide, qu'il s'agisse des optiques du pack principal ou des commutateurs enfichables.
Arista Networks a tout récemment annoncé XPO, un module optique de 12,8 Tbit/s à refroidissement liquide, offrant une densité de 204 ports par unité de rack open compute : allez-vous supporter ce format ?
XPO fait l'objet d'un accord multi-fournisseurs (MSA) pour un nouveau connecteur pour les modules enfichables. L'idée est de regrouper environ huit connecteurs, OSFP ou pas, en un seul connecteur plus grand. Ils en ont donc quatre en haut, quatre en bas, et ont intégré un nouveau circuit de refroidissement par liquide entre les deux. Maintenant imaginez qu'il y ait quatre connecteurs qui ont été placés dans un seul boîtier, ce qui permet disons de réduire la quantité de métal entre les connecteurs. Ici au milieu, ils ont créé une autre boucle de refroidissement liquide qui doit se connecter à la boucle de refroidissement liquide du commutateur. Voilà ce qu'est XPO. Maintenant, quand on construit des commutateurs d'optique co-packagés [ou co-emballés, CPO], cela n'a absolument aucune importance et ce n'est pas nécessaire. Si vous construisez des commutateurs enfichables, vous pouvez l'utiliser ou ne pas l'utiliser. La façon dont nous construisons déjà le système suit essentiellement la même approche que celle qu'ils ont adoptée pour XPO. Donc, lorsque nous construisons nos commutateurs, nous voulons qu'ils soient très économes en énergie. Si vous observez la façon dont nous plaçons les connecteurs enfichables sur notre commutateur, vous verrez qu’il y a essentiellement un plateau ici et un plateau là, et qu’il y a un liquide et un circuit imprimé complet entre les deux. En fait, tout est immergé dans le liquide. C’est donc la même chose, et nous le faisons déjà. Ils adoptent essentiellement une approche similaire, et c’est très bien. Il suffit de créer une version plus légère de cette approche et de fabriquer ses connecteurs. Pour l'instant, il s'agit plutôt de bonnes pratiques issues de ce qui a déjà été fait. Ils ont créé ou disposent d'un MSA, qui vise à établir une sorte de « connecteur standard » pour cela. Si nous avons besoin d'utiliser un tel dispositif, nous l'utiliserons pour les modules enfichables. Mais nous nous concentrons sur les composants optiques intégrés. Ce qu'ils essaient de faire, c'est de regrouper davantage de connecteurs en un seul et de le rendre étanche au liquide. De ce point de vue, nous sommes déjà à 100 % étanche au liquide. Et notre approche actuelle en matière de conception de commutateurs est que nous ne voulons pas créer de plus en plus de circuits de liquide. Je peux faire en sorte que le circuit de liquide du commutateur couvre tout ce dont j'ai besoin, y compris les connecteurs, je n'ai donc pas besoin de créer un autre circuit de liquide. C'est l'inconvénient de cette approche. Quoi qu'il en soit, si nous voyons une raison de l'utiliser, nous le ferons dans nos futurs commutateurs. C'est un outil supplémentaire dans la boîte à outils pour les commutateurs enfichables. Et si vous êtes limité aux commutateurs enfichables, cela peut être une bonne chose. Mais pour l'évolutivité scale-out, nous ne voulons pas utiliser de commutateurs enfichables, nous voulons utiliser des optiques co-emballées. Et XPO, ce n'est pas pour les optiques co-emballées.
Parmi les nouveautés présentées lors de cette conférence GTC, vous avez annoncé votre dernier commutateur Spectrum-6 SPX ainsi qu'un produit photonique dont la sortie est prévue d'ici la fin de l'année : pourquoi cette technologie est-elle si importante pour vous sachant que Nvidia vient d'investir 4 Md$ dans Lumentum et Coherent ?
La connectivité optique est de plus en plus utilisée dans les usines IA. Dans ces environnements, plusieurs infrastructures sont mises en œuvre : NVLink pour du scale up, Spectrum-X pour du scale-out, une interconnexion entre les usines IA, une infrastructure de stockage, etc. L'évolutivité scale-out, qui relie les GPU pour former des centaines de milliers d'usines IA, fonctionne sur de longues distances nécessitant de reposer entièrement sur la connectivité optique. À mesure que nous augmentons le débit de données et la capacité de l'infrastructure scale-out, l'utilisation de l'optique s'intensifie, ce qui se traduit par une consommation d'énergie de plus en plus élevée. Or, nous savons tous que l'énergie est le principal facteur limitant dans la construction d'usines IA. En fonction de la puissance disponible, on sait combien de GPU on peut installer et quelle sera la puissance de calcul. Partout où vous pouvez économiser de l'énergie et augmenter la puissance de calcul, vous souhaitez le faire. Or, l'évolutivité prend une telle ampleur d'un point de vue optique qu'elle consomme beaucoup d'énergie. Si vous souhaitez minimiser la consommation d'énergie, la meilleure façon d'y parvenir est de procéder à une conception conjointe entre les commutateurs et les composants optiques. C'est précisément ce qu'est l'intégration conjointe des composants optiques.
Ainsi, au lieu de faire fonctionner le moteur optique à l'extérieur du commutateur, hors du boîtier, ce qui implique de dépenser beaucoup d'énergie pour acheminer le signal électrique depuis l'émetteur-récepteur jusqu'au commutateur, nous intégrons le moteur optique directement au circuit Asic du commutateur lui-même. Cela permet de réduire au minimum la distance que le signal optique doit parcourir, ce qui diminue la consommation d'énergie du réseau optique. Cette réduction peut atteindre un facteur 5, ce qui c'est une réduction considérable de la consommation d'énergie. Nous pouvons désormais économiser de l'énergie et en consacrer davantage pour apporter plus de puissance de calcul à l'usine IA. C'est la première raison. La deuxième raison est la suivante : si l'on examine les composants optiques, chaque GPU est équipé de six émetteurs-récepteurs. Chacun comporte des DSP ou des composants non-DSP, et chaque émetteur-récepteur dispose de huit lasers. Attendez un instant : combien de composants faut-il pour construire cette infrastructure ? Et plus il y a de composants, plus le risque de panne est élevé. En procédant à une conception conjointe avec l’optique, en intégrant l’optique dans le même boîtier, nous réduisons le nombre de composants. Il n’y a donc plus d’émetteurs-récepteurs, nous n’avons pas besoin d’utiliser de DSP, le nombre de lasers est divisé par quatre, et par conséquent, l’ensemble de l’infrastructure devient beaucoup plus résiliente. Nous obtenons ainsi une consommation d'énergie jusqu'à 5 fois moindre, une fiabilité des centres de données jusqu'à 10 fois supérieure, et nous multiplions par 5 le temps de fonctionnement des workloads IA. Ce sont là des atouts considérables, et tout cela grâce à l'intégration de l'optique aux commutateurs.
Deux produits photoniques ont été présentés ici à la GTC. L'un d'eux est Spectrum-X Ethernet, un commutateur enfichable qui utilise des émetteurs-récepteurs, il ne s'agit pas de CPO. Dans le cas des optiques co-packagées, les moteurs optiques sont essentiellement intégrés à l'intérieur. Donc en fait, il suffit de faire entrer la fibre dans l'ASIC du commutateur qui se trouve juste en dessous. Un de nos modèles dispose de 128 ports de 800G ou de 512 ports de 200G en optique co-packagée, un autre 512 ports de 800G ou de 2 048 ports de 200G. Dans Spectrum X Ethernet nous avons de l'optique co-packagée alors que dans notre autre produit photonique, Quantum X Photonics, nous avons de l'InfiniBand.
Le photonique va-t-il changer la donne pour les entreprises et pour vous ?
Je pense que le photonique va changer la donne pour tout le monde. Le co-design avec des composants optiques intégrés, ou l'intégration de composants optiques, c'est-à-dire la conception conjointe du réseau avec des moteurs optiques, permet de réduire la consommation d'énergie. Vous savez, la consommation d'énergie est le facteur limitant des centres de données dédiés à l'IA. C'est elle qui détermine le nombre de GPU que l'on peut installer et la capacité de calcul de ces centres. Et cela est bénéfique pour les grands fournisseurs de services cloud, les grandes usines IA et les entreprises partout dans le monde. Le deuxième point est la résilience, en réduisant le nombre de composants et en intégrant les moteurs optiques au commutateur ce qui évite de remplacer les émetteurs-récepteurs et donc éviter des interventions et donc des interruptions. Ainsi, même pour les entreprises, le temps nécessaire à la gestion et à l'exploitation des centres de données est considérablement réduit : la situation devient beaucoup plus simple pour elles et elles gagnent en robustesse. L'augmentation du temps de disponibilité est un avantage pour tout le monde.
Quelle est la prochaine étape pour Spectrum-X et les solutions photoniques Nvidia ?
Il est évident que nous allons continuer à intégrer des composants optiques. Nous avons donc plusieurs projets en tête. L'un d'entre eux consiste à prendre en charge des infrastructures et des réseaux de plus en plus vastes. Nous voulons optimiser la consommation d'énergie, car l'énergie est une ressource limitée. Et si vous consommez de l'énergie pour faire fonctionner des refroidisseurs, c'est de l'énergie que vous ne pouvez pas utiliser pour le calcul. C'est pourquoi, par exemple, nous utilisons actuellement un refroidissement par liquide là où le liquide est chaud, à 45 degrés. Il y a des espaces où il faut réduire la température du liquide pour le refroidir à environ 25 degrés. Mais dans ce cas, il faut installer des refroidisseurs, et ces derniers consomment de l'énergie. Si vous restez à 45 degrés, vous pouvez éviter les refroidisseurs. Vous optimisez donc la consommation d'énergie. Nous avons généralisé le refroidissement par liquide. Cela permet également de réduire la consommation des composants. L'intégration des composants optiques permet également de réduire la consommation. Nous voulons optimiser la consommation d'énergie partout où cela est possible. Nous venons de créer une nouvelle infrastructure de stockage pour l'inférence qui consomme moins d'énergie que les réseaux traditionnels. C'est donc un autre moyen d'optimiser la consommation d'énergie. Nous voulons donc prendre en charge des échelles de plus en plus grandes et voulons optimiser la consommation d'énergie sur tout ce qui existe avant ensuite de prendre en charge de nouveaux algorithmes que nous aurons développés. La manière dont l'infrastructure est construite, la façon dont le réseau est conçu pour réduire le nombre de commutateurs, ou encore le fonctionnement global de l'infrastructure… tout cela dépend de la manière dont les algorithmes vont fonctionner.
Il y a quelques années, les gens ne comprenaient pas pourquoi on disait que la conception de topologie de racks à tous les niveaux n'était pas la bonne approche pour l'IA. Pourquoi ? Parce que les informaticiens sont habitués à avoir un rack, des serveurs, un commutateur. Mais pour l'IA, on ne peut pas faire cela car cela n'a pas de sens. Il faut une véritable optimisation, car on veut une topologie réseau adaptée à la façon dont les GPU communiquent. Voilà donc ce qui nous pousse à aller de l’avant. Vous avez vu que Spectrum-6 est à 100 Tb/s et que la génération suivante Spectrum-7 est annoncée à 200 Tb/s. Augmenter la capacité, augmenter les vitesses, intégrer des capacités de traitement et des composants optiques de pointe est important. Mais il y a aussi tout un travail sur les algorithmes, de la mise en place d’une prise en charge à une optimisation complète, dans la conception du réseau. C’est sans fin. L'intégration de composants optiques constitue donc une avancée majeure. Il s'agit en effet de ne plus placer les moteurs optiques à l'extérieur du boîtier : le rôle de ces moteurs est de convertir la lumière en électricité. C'est leur fonction. Et si cette conversion s'effectue à l'extérieur, cela nécessite une grande quantité d'énergie. Si elle s'effectue à l'intérieur, la consommation d'énergie est minimale. C'est pourquoi l'intégration des composants optiques est si importante. C'est donc ce que nous faisons, et l'infrastructure évolutive sera basée sur l'intégration des composants optiques. Dans sa keynote, Jensen Huang a annoncé que sur la génération d'architecture GPU Feynman, nous allions également intégrer les composants optiques à NVLink. Et l’un des grands domaines que nous voulons développer avec NVLink sur le GPU est le 1152. Donc, NVLink1152, cela signifie que nous avons une architecture évolutive ou un NVLink s’étend sur plusieurs racks. Et par conséquent, il faut couvrir de longues distances, et quand on le fait, il faut passer à un réseau optique. Le meilleur réseau optique est, bien sûr, l’optique intégrée. Notre prochain élément CPO, ou prochaine étape, consiste donc également à intégrer le CPO en scale-up dans NVLink. Nous disposerons alors d'optiques co-emballés sur le scale-up, ce qui permettra de minimiser la consommation d'énergie, d'augmenter la résilience et, en fait, de maximiser l'efficacité énergétique pour le calcul.
Vous avez évoqué l'InfiniBand : selon vous l'Ultra Ethernet est-il en mesure de rivaliser avec lui ?
Je pense qu'il n'y a qu'un seul Ethernet qui ait été spécialement conçu pour l'IA, à savoir l'Ethernet Spectrum-X. Nous avons l'Ethernet Spectrum-X et aussi l'InfiniBand. D'ailleurs, dans l'Ethernet Spectrum-X, nous intégrons de nombreuses technologies issues de l'InfiniBand. Nous avons donc l'InfiniBand et l'Ethernet Spectrum-X. Tous deux sont nos enfants. J'ai moi-même trois enfants et je les aime tous de la même façon. Donc, si quelqu'un utilise InfiniBand, qu'il l'utilise, et si quelqu'un utilise Spectrum-X, qu'il l'utilise aussi : les deux sont excellents. Maintenant, il y a quelques différences entre eux. Même si nous avons intégré beaucoup de technologie InfiniBand dans Spectrum-X Ethernet, InfiniBand est un réseau à plus faible latence, par exemple. Donc, si vous développez quelque chose pour lequel vous avez besoin d’une latence extrêmement faible, comme le HPC ou les supercalculateurs pour le calcul scientifique, on préfère InfiniBand car il permet d’atteindre une latence encore plus faible. Pour les grands systèmes d’entraînement, cette latence extrêmement faible n’est pas un facteur déterminant. Ce qui importe avant tout, c'est l'absence de gigue. Et Spectrum-X, Ethernet ou InfiniBand, constituent d'excellentes options. Les gens choisissent donc ce qui leur convient le mieux, c'est-à-dire ce qui leur est le plus facile à gérer. InfiniBand est très connu dans la communauté HPC, ils savent comment le faire fonctionner, ils adorent donc l'utiliser. Pour ceux qui viennent du monde Ethernet et qui veulent développer de l'IA, c'est plus facile pour eux car ils ont déjà développé leurs logiciels de gestion pour gérer leur réseau. Il peut donc être beaucoup plus simple pour eux d'utiliser Ethernet. Pour eux nous avons créé Spectrum-X Eternet. Ils continuent ainsi à utiliser quelque chose qu'ils savent gérer, mais ils bénéficient désormais de performances adaptées à l'IA. Les deux solutions sont excellentes et nous les apprécions toutes les deux.
Dans les télécoms, les infrastructure RAN basées sur l'IA (AI-RAN) montent en puissance : est-ce un débouché selon vous ?
L'infrastructure des télécommunications comprend évidemment de multiples composants, voire de multiples éléments. Cela va de l'utilisation de l'IA sur des GPU pour accélérer la 5G et la 6G, etc. Il y a des charges de travail sur les GPU, ainsi que des frameworks permettant de les exécuter. La deuxième chose, c'est de pouvoir passer à l'edge computing et mettre en place une infrastructure de connectivité amont/aval par exemple. C'est là que BlueField est une excellente option, car il combine calcul et réseau. Ainsi, au lieu d'avoir besoin de multiples composants IT et réseaux distincts, nous proposons en fait une seule unité qui fait les deux. Et vous pouvez exécuter tout ce qui est nécessaire, car la capacité de calcul à l'edge n'est pas si importante de ce point de vue. Vous pouvez disposer des GPU qui prennent en charge ce dont vous avez besoin, puis vous intégrer un DPU (data processing unit) comme BlueField 4 qui apporte les éléments nécessaires du côté CPU et vous permet de vous connecter directement au réseau via l'infrastructure dédiée. Nous avons également mis en place l'infrastructure nécessaire pour permettre, par exemple, des connexions sur de longues distances. C'est dans ce cadre que nous collaborons avec des opérateurs télécoms : leurs stations peuvent ainsi se connecter plus efficacement à un centre de données qui assure l'alimentation, etc. Il y a donc plusieurs volets. Je participe à la mise en place des DPU jusqu'à l'edge, à la construction d'une infrastructure capable de couvrir de longues distances, et nous travaillons avec des opérateurs télécoms pour tirer parti de l'infrastructure, notamment fibre, qu'ils ont déployée, qui s'étend jusqu'aux stations. Mais cela implique beaucoup de logiciels, ainsi que l'accélération qui peut être réalisée sur les GPU. Mais cela, c'est le travail d'une autre équipe.