Broadcom a passé les trois dernières années à développer un portefeuille d’équipements réseau Ethernet pour l’IA afin d’améliorer les performances du training à grande échelle et s’assurer que l’infrastructure réseau ne soit plus un frein dans ce domaine. Ces derniers mois, l’entreprise a lancé les commutateurs Tomahawk 6 pour les réseaux évolutifs et Jericho 4 pour la connectivité entre centres de données. Aujourd'hui, Broadcom franchit une étape avec Thor Ultra, une carte réseau Ethernet 800G spécialement conçue pour les réseaux IA en backend. Thor Ultra est basée sur une conception de carte réseau NIC entièrement nouvelle, et n’est pas une évolution du précédent produit Thor 2 de Broadcom. Alors que la carte réseau NIC 400G Thor 2 était destinée à plusieurs marchés, dont celui des entreprises, l'adaptateur Thor Ultra repose sur une architecture exclusivement axée sur les déploiements évolutifs d'IA.

En particulier, la carte NIC met en œuvre les spécifications Ultra Ethernet Consortium (UEC) 1.0 et introduit des capacités accélérées par le matériel pour moderniser l'accès direct à la mémoire à distance ou RDMA (Remote Direct Memory Access). « Ce n'est pas la dernière pièce du puzzle, mais plutôt une pièce très importante de ce sur quoi nous avons travaillé ces trois dernières années et que nous avons livré au cours des trois ou quatre derniers mois, à savoir un portefeuille complet », a déclaré Hasan Siraj, responsable des produits logiciels et de l'écosystème chez Broadcom. « Ce qu’il faut retenir, c’est que cette carte NIC est entièrement compatible avec les fonctionnalités Ultra Ethernet à 800 gigabits, et qu'il n'existe aucun autre produit dans l'industrie capable d'offrir cela. »

Scale-out vs scale-up : comprendre la segmentation du marché

Thor Ultra cible un domaine réseau spécifique qui diffère fondamentalement des interconnexions GPU-à-GPU. Au sein d'un même rack, les GPU se connectent via des technologies comme le NVLink dans ce que Broadcom appelle des domaines « scale-up ». Ceux-ci couvrent généralement 72 à 256 XPU qui accèdent directement à la mémoire les uns des autres. Thor Ultra répond aux besoins de connectivité « scale-out », c'est-à-dire la mise en réseau rack à rack nécessaire pour créer des clusters couvrant des centaines de milliers de XPU. Ce qui positionne le fournisseur face aux offres Ethernet de Nvidia (commutateurs Spectrum-X et cartes NIC BlueField) et aux solutions InfiniBand plutôt que face à NVLink. « Quand il faut sortir de ce rack et connecter plusieurs de ces racks entre eux, une connectivité scale-out est nécessaire. C'est là que cette carte réseau entre en jeu », a expliqué M. Hassan. La carte réseau est disponible en deux configurations SerDes. La version 100G offre huit voies 100G. La déclinaison 200G offre quatre voies 200G. Les deux versions offrent une bande passante totale de 800G grâce à 16 voies PCIe Gen 6. La double configuration permet de prendre en charge à la fois les écosystèmes 100G actuels et les déploiements 200G émergents. 

Briser les contraintes architecturales du RDMA

Les protocoles RDMA traditionnels présentent des limites de conception qui remontent à leur création, il y a deux ou trois décennies. Ils ne prennent pas en charge le multipathing, ne peuvent pas gérer la livraison de paquets dans le désordre (out-of-order) et s'appuient sur la retransmission Go-Back-N. Avec Go-Back-N, un seul paquet perdu entraîne la retransmission de ce paquet et de tous les paquets suivants dans la séquence. Ces limitations deviennent critiques à grande échelle. La congestion du réseau augmente la perte de paquets. Le Go-Back-N amplifie le problème en inondant les liaisons déjà congestionnées de retransmissions redondantes. Thor Ultra met en œuvre quatre changements architecturaux pour lever ces contraintes.

- Le multipathing au niveau des paquets. La carte réseau NIC divise ses huit voies 100G en plans réseau distincts. Les paquets d'un même message peuvent être répartis sur tous les plans pour équilibrer la charge. Le RDMA standard exige que tous les paquets d'un flux empruntent un seul chemin, ce qui empêche cette optimisation.

- Placement des données hors séquence. Thor Ultra écrit les paquets directement dans la mémoire XPU à mesure qu'ils arrivent, quelle que soit leur séquence. La carte NIC ne met pas en mémoire tampon les paquets en attente de livraison dans l'ordre. Au lieu de cela, elle suit l'état des paquets et les place immédiatement à leur emplacement correct dans la mémoire.

- Accusé de réception sélectif et retransmission. Thor Ultra remplace Go-Back-N par un accusé de réception sélectif. Lorsque les paquets 3 et 6 sont manquants dans une séquence de 1 à 8, la carte réseau envoie un SACK (Selective Acknowledgment) indiquant exactement quels paquets sont arrivés et lesquels sont manquants. L'expéditeur retransmet uniquement les paquets 3 et 6.

- Contrôle de congestion programmable. La carte NIC met en œuvre un pipeline matériel qui prend en charge plusieurs algorithmes de contrôle de congestion. Deux schémas sont actuellement disponibles : le contrôle de congestion basé sur le récepteur (les récepteurs envoient des crédits aux expéditeurs) et les approches basées sur l'expéditeur (les expéditeurs calculent le temps aller-retour pour déterminer les taux de transmission). Le pipeline programmable peut s'adapter aux futures révisions des spécifications UEC ou aux algorithmes hyperscalers personnalisés. 

Performances et puissance

Thor Ultra consomme environ 50 watts. Ce chiffre est à comparer aux 125-150 W consommés par des produits tels que le DPU BlueField 3 de Nvidia. La différence de puissance résulte de choix architecturaux plutôt que de la technologie de fabrication. Les DPU ciblent plusieurs cas d’usage, notamment les réseaux frontaux (ce qui nécessite une inspection approfondie des paquets et un chiffrement), le déchargement du stockage et les fonctions de sécurité. Ils intègrent des cœurs ARM, de grands sous-systèmes de mémoire et des moteurs d'accélération étendus. Thor Ultra supprime tout ce qui n'est pas nécessaire pour les réseaux d’IA en backend. 

Dans l'ensemble, Broadcom prévoit une amélioration de 10 à 15 % du temps d'exécution des tâches grâce à la combinaison d'un équilibrage de charge efficace, d'une livraison dans le désordre (out-of-order) et d'une retransmission sélective. L'entreprise estime que cette amélioration justifie l'investissement dans le réseau. « Nous pensons pouvoir améliorer d'au moins 10 à 15 % le temps d'exécution des tâches. Si l'on considère la construction d'un cluster, que ce soit un cluster à 8 000 nœuds ou à 100 000 nœuds, le réseau représente environ 10 à 15 % du coût », a affirmé M. Hassan. « Ce type d'innovation permet donc au réseau d'être rentabilisé. » Thor Ultra est actuellement en phase de test et disponible dans les formats PCIe et OCP 3.0. Broadcom prévoit un volume à peu près égal entre les deux formats au cours des deux prochaines années. L’entreprise propose trois modèles de consommation supplémentaires en plus des cartes standard. Les clients peuvent acheter des puces discrètes pour des conceptions de cartes personnalisées, et les fabricants de XPU ou de GPU peuvent intégrer Thor Ultra sous forme de puce. Broadcom accordera une licence pour la conception en tant que propriété intellectuelle.