Se positionnant comme une alternative à Nvidia et son NVLink propriétaire, le consortium multivendeur Ultra Accelerator Link (UALink) a publié la première spécification de standard d'interconnexion ouvert pour les clusters d'intelligence artificielle. La spécification UALink 200G 1.0 définit une interconnexion à faible latence et à large bande passante pour la communication entre les accélérateurs et les commutateurs dans les pods de calcul d'IA. Selon UALink, « il s'agit de la seule interconnexion évolutive ouverte pour les charges de travail d'IA de prochaine génération ». « Les modèles d'IA se développent rapidement, exigeant des performances de calcul, de mémoire et d'interconnexion plus élevées », a écrit le consortium UALink dans un livre blanc présentant la spécification. « Le coût et la complexité de la fourniture de solutions fiables de mise à l'échelle représentent une charge importante pour l'ensemble de l'industrie. Les solutions de mise à l'échelle sont essentielles pour distribuer des modèles d’IA sur un pod avec des centaines d'accélérateurs. Il existe une demande croissante de la part de l'industrie pour établir des solutions normalisées de mise à l'échelle du réseau pour les charges de travail d'entraînement et d'inférence. La mission du consortium UALink est d'établir un standard ouvert pour fournir une solution réseau évolutive, performante, résiliente et rentable pour les connexions à l’échelle. »
« Élaborée par plusieurs des 75 membres du groupe, dont AMD, Broadcom, Cisco, Google, HPE, Intel, Meta, Microsoft et Synopsys, la spécification UALink 200G 1.0 définit la technologie nécessaire pour prendre en charge un débit de données maximal de 200 gigatransferts par seconde (GT/s) par canal ou par voie entre les accélérateurs et les commutateurs entre jusqu'à 1 024 pods de calcul d’IA », a expliqué UALink. La spécification UALink est basée sur la norme 802.3 Ethernet PHY, et les voies UALink peuvent être configurées en différents groupes : une liaison à une voie (x1 Link), une liaison à deux voies (x2 Link), ou une liaison à quatre voies (x4 Link). Un groupe de liaison à quatre voies constitue une station et offre une bande passante maximale de 800 Gbps en émission et en réception. Selon UALink, le nombre d'accélérateurs et la bande passante allouée à chacun d'entre eux peuvent être adaptés pour répondre aux exigences des applications d’IA.
Un socle Ethernet pour UALink
Les spécifications d'UALink définissent également la sécurité des transmissions entre IA. « La fonction de sécurité UALink, appelée UALinkSec, est destinée à protéger le trafic sur un réseau et des commutateurs UALink contre un adversaire physique ; l'adversaire peut être présent au moment de l'attaque ou peut avoir placé un dispositif (par exemple, un interposeur) pour espionner ou falsifier le trafic UALink », précise le livre blanc. « Lorsqu'il est activé, UALinkSec assure la confidentialité des données et, en option, l'intégrité des données (y compris la protection contre le replay). UALinkSec prend en charge le chiffrement et l'authentification de tous les canaux du protocole UPLI, c’est-à-dire les demandes, les réponses en lecture et en écriture. » Pour l'instant, l'objectif principal d'UALink est de fournir une alternative à la technologie NVLink d'interconnexion directe à large bande passante et à faible latence de Nvdia pour la connectivité CPU-GPU. NVLink est principalement utilisé dans les réseaux InfiniBand.
Compte tenu du socle Ethernet de la spécification, la plupart des cercles considèrent qu’UALink travaille main dans la main avec l'Ultra Ethernet Consortium pour étendre l'énorme communauté Ethernet par un renforcement des capacités d'IA. De nombreux membres du groupe UALink élaborent également des spécifications UEC qui visent à développer l’Ethernet au niveau de la couche physique, de la liaison, du transport et du logiciel pour proposer des avancées dans la connectivité IA. « UALink se situe à l'avant-garde de l'innovation dans les domaines de l'intelligence artificielle et de l'apprentissage machine. Son interconnexion d'accélérateur dédiée offre une voie ouverte en tirant parti de l'omniprésence de l’écosystème Ethernet », a affirmé le groupe UALink. « En incorporant les commutateurs UALink, les accélérateurs dotés de la capacité UALink peuvent étendre la mise à l'échelle en créant des pods d'accélération multi-nœuds à très haute bande passante. UALink permet également un modèle logiciel simple en prenant en charge les opérations de chargement et de stockage sur l'ensemble d'un pod pouvant comprendre jusqu'à 1024 accélérateurs. »
Un seul produit aujourd'hui disponible
Un marché autour d'UALink doit maintenant se développer pour constituer une véritable alternative à Nvidia. Actuellement, seul Synopsys, membre d'UALink, dispose d'un produit basé sur UALink. L’entreprise a déjà lancé un contrôleur IP UALink, un PHY et un ensemble IP de vérification à la fin de l'année dernière. D'autres membres devraient suivre. « Avec la publication de la spécification UALink 200G 1.0, les entreprises membres du consortium UALink construisent activement un écosystème ouvert pour la connectivité des accélérateurs à grande échelle », a déclaré Peter Onufryk, président du consortium UALink, dans un communiqué. « Nous sommes impatients de voir la variété des solutions qui arriveront bientôt sur le marché et permettront de futures applications d’IA. »
Commentaire