Arista Networks a présenté cette semaine un module optique à refroidissement liquide de 12,8 Tbps qui, selon l'entreprise, permettra de répondre aux besoins en puissance et en performances requis pour le développement des réseaux des centres de données dédiés à l'IA. Rappelons que la fonction principale d'un transceiver est de convertir un signal électrique en signal optique, et inversement. Cet émetteur-récepteur optique, baptisé eXtra-dense Pluggable Optics (XPO), assure une bande passante de 12,8 Tbps grâce à 64 voies électriques et intègre une plaque froide refroidie par liquide capable de supporter une consommation électrique supérieure à 400 W, a déclaré Arista. L'équipementier a déclaré avoir également réuni quelque 45 fournisseurs de modules optiques de premier plan dans le cadre d'un accord multi-source (MSA) pour développer et prendre en charge le XPO — bien qu'il n'ait identifié que trois de ces fournisseurs : Lightmatter, Eoptolink Technology et TeraHop. Arista affirme que XPO apporte une option supplémentaire pour les clients des modules optiques enfichables à chaud, au-delà des émetteurs-récepteurs ZR/ZR+/800ZR, mais cible en particulier les formats OSFP (Octal Small Form-Factor Pluggable) que l'on trouve dans de nombreux réseaux optiques de centres de données, des hyperscalers aux entreprises.
Avec le format XPO refroidi par liquide, Arista propose un émetteur-récepteur optique enfichable à chaud de 12 Tbps avec huits ports Ethernet. (Crédit Arista)
« Plus de 100 millions d’OSFP devraient être livrés cette année, faisant de l’OSFP le format de module optique le plus important de tous les temps », ont coécrit Andreas Bechtolsheim, cofondateur et architecte en chef, et Vijay Vusirikala, responsable des réseaux cloud et IA, tous deux chez Arista, dans un blog consacré à XPO. « L’OSFP continuera de prospérer en tant que format de module optique le plus répandu dans un avenir prévisible. Cela dit, l’augmentation incessante des besoins en bande passante des grands centres de données IA dépasse les limites de conception de l’OSFP en termes de densité de bande passante, de capacité de refroidissement et de fiabilité. » Le XPO offre une densité de panneau avant quatre fois supérieure à celle de l’OSFP, avec un refroidissement liquide intégré compatible avec tout type de switchs optiques, ainsi qu’une forte réduction des pannes ; un seul module XPO remplace huit modules OSFP, ont déclaré Andy Bechtolsheim et Vijay Vusirikala. Rappelons qu'une architecture OSFP exploite 8 voies optiques parallèles, contre 4 pour les QSFP. Chaque voie fonctionne à 50 Gbps (PAM4) pour atteindre 400 Gbps, ou à 100 Gbps pour les versions 800G, déjà annoncées chez Cisco et Huawei. « En bref, XPO permet aux entreprises de construire de grands centres de données IA avec quatre fois moins d'armoires de commutateurs. C’est extrêmement important tant pour les applications de type scale-up que scale-out, où, sans XPO, le nombre de racks de commutateurs traditionnels dépasserait celui des armoires de GPU », ont déclaré Bechtolsheim et Vusirikala.
Un module XPO à 12 Tbps vient remplacer 8 transceivers OSFP à 400 ou 800G. (Crédit Arista)
Pour étayer leur argument, les deux dirigeants ont imaginé un centre de données IA de 400 MW comprenant 1 024 racks GPU de 128 GPU chacun, soit un total de 128 000 GPU. « Supposons une bande passante de 12,8 Tbt/s en scale-up et de 1,6 Tbt/s en scale-out par GPU. Avec des racks de commutateurs OSFP d’une densité de 1,6 Pbps par rack, cela nécessiterait plus de 1 400 racks de commutateurs pour les structures en scale-up et en scale-out. Avec XPO, cela nécessiterait 75 % de racks en moins, ce qui permettrait d’économiser plus de 1 050 racks, soit 44 % de la surface au sol », ont déclaré Bechtolsheim et Vusirikala dans leur blog. « La suppression de 75 % des racks de commutateurs se traduit par des réductions massives des coûts de construction et d’infrastructure, y compris les coûts de distribution électrique, de plomberie et d’installation, tout en accélérant les délais de déploiement », ont déclaré les deux responsables d'Arista.
Arista explique qu'un switch Ethernet doté de 16 transceivers XPO assure le travail d'un commutateur équipé 128 modules OSFP. (Crédit Arista)
Le fournisseur a indiqué que la capacité de refroidissement par liquide de XPO constituait également une caractéristique importante. « Tous les grands centres de données IA seront refroidis par liquide et les commutateurs qui y sont intégrés devront également l’être », ont souligné Andy Bechtolsheim et Vijay Vusirikala. « Bien qu’il soit possible d’ajouter des plaques de refroidissement liquide sur des modules OSFP à face plane, cela n’améliore pas de manière substantielle les performances thermiques. ». Le XPO résout ce problème en intégrant une plaque de refroidissement à liquide à l’intérieur du module, avec deux cartes à 32 canaux partageant la même plaque de refroidissement, capable de baisser la température aussi bien des émetteurs-récepteurs optiques à faible puissance que des modules optiques à haute puissance telles que les 8x1600G-ZR/ZR+ avec une consommation pouvant atteindre 400 W, ont précisé les deux dirigeants. Les transceivers XPO sont beaucoup plus simples que les modules OSFP, ce qui améliore également la fiabilité. « Chaque carte à 32 canaux ne comporte qu’un seul microcontrôleur et un seul ensemble de convertisseurs de tension, soit une réduction de 75 % des composants communs par rapport à 4 modules OSFP », ont écrit les deux responsables.
« Dans les structures IA à grande échelle comprenant des dizaines de milliers de liaisons optiques, les défaillances de composants deviennent statistiquement inévitables. Cependant, les taux de défaillance matérielle et logicielle des modules optiques actuels restent plus élevés que ce qui serait souhaitable pour la fiabilité opérationnelle requise dans de tels environnements », a écrit Arista dans un livre blanc sur XPO. « Une seule défaillance peut perturber ou interrompre une tâche de formation IA de plusieurs millions de dollars, entraînant un gaspillage de cycles de calcul et un impact financier significatif. Diagnostiquer et remplacer un module défaillant au sein d’une structure contenant plus de 50 000 liaisons optiques représente un défi opérationnel majeur, déclenchant souvent des effets en cascade sur la planification des tâches et conduisant à une grave fragmentation des ressources à travers le réseau », a indiqué Arista.
Plusieurs fournisseurs dont TeraHop ont déjà apporté leur soutien au format XPO développé par Arista Networks. (Crédit TeraHop)
La consommation électrique est une contrainte critique dans la conception des centres de données modernes, a précisé Arista. « Les racks haute densité fonctionnent avec un budget énergétique limité, et chaque watt consommé par le réseau est un watt qui n’est pas disponible pour les ressources de calcul génératrices de revenus », a souligné Arista. « Par conséquent, les interconnexions optiques doivent offrir une consommation électrique nettement inférieure par bit transmis. Un rendement élevé est essentiel non seulement pour réduire les coûts d’exploitation, mais aussi pour maximiser la densité de calcul et les performances globales de chaque rack. » « XPO prend en charge les conceptions optiques les plus économes en énergie de deux manières », ont expliqué Andy Bechtolsheim et Vijay Vusirikala. « Premièrement, il fournit un canal électrique propre à la puce de commutation qui prend en charge une interface linéaire à faible consommation. Deuxièmement, il prend en charge les technologies photoniques les plus économes en énergie, ainsi que d’autres technologies telles que les micro-ondes RF qui consomment encore moins d’énergie. »
Mary Jander, analyste senior chez Futuriom, a souligné que le module XPO d’Arista marque une approche nouvelle et importante de la technologie des émetteurs-récepteurs optiques. « S’il fonctionne en production comme prévu, il pourrait réduire considérablement les dépenses d’investissement et les coûts d’exploitation pour les hyperscalers, les fournisseurs de néocloud et les grandes entreprises. Sans parler de l’amélioration des capacités des produits d’Arista », a déclaré Mme Jander.