Arista Networks a partagé les premiers détails sur sa technologie de télémétrie avancée que le fournisseur développe actuellement en vue d’aider ses clients IA et cloud à améliorer leurs capacités de surveillance et de diagnostic. Cette extension des capacités de télémétrie répond à la demande, motivée par l'IA, d'une gestion plus complète du réseau et d'une meilleure visibilité dans les environnements complexes. La télémétrie est déjà au cœur de la pile logicielle EOS d'Arista et de sa plateforme de gestion et d'analyse de réseau Cloud Vision qu’elle propose à ses clients, grandes entreprises et opérateurs. La télémétrie et les métriques en temps réel sur l'état du réseau sont stockées dans une base de données commune, SysDB, facilement accessible via des API et des SDK comme gNMI/OpenConfig pour l'analyse. « Depuis nos débuts, cette télémétrie en streaming en temps réel est implémentée dans nos solutions », a rappelé Jayshree Ullal, CEO et présidente d'Arista, lors de la conférence téléphonique sur les résultats du quatrième trimestre du fournisseur avec les analystes financiers. « Nos clients cloud et IA recherchent également cette visibilité, c'est pourquoi nous avons développé des capacités d'IA plus approfondies pour la télémétrie. »
« Actuellement, Arista capture et envoie les données de télémétrie réseau vers CloudVision et d'autres systèmes clients », a ajouté Ken Duda, président, directeur technique et fondateur d'Arista. « Nous étendons cette capacité à l'IA en combinant des sources de données en réseau liées au contrôle de flux, aux indicateurs d’Accès Direct à la Mémoire Distante (Remote Direct Memory Access, RDMA), aux indicateurs de mise en mémoire tampon et de congestion, ainsi que des informations au niveau de l'hôte, notamment ce qui se passe dans la pile RDMA sur l'hôte, ce qui se passe avec les performances collectives, les latences, les problèmes de contrôle de flux ou de mise en mémoire tampon dans la carte réseau de l'hôte », a déclaré M. Duda. « Ensuite, nous rassemblons toutes ces informations dans CloudVision et offrons à l'opérateur une vue unifiée de ce qui se passe dans le réseau et dans l'hôte », a-t-il expliqué. « Cela aide considérablement nos clients à mettre en place une solution globale fonctionnelle, car les interactions entre le réseau et l'hôte peuvent être complexes et difficiles à déboguer lorsqu'elles sont collectées par des systèmes différents », a fait valoir M. Duda.
Premiers commentaires des analystes
L’équipementier a refusé de donner plus de détails sur ses prochaines extensions de télémétrie IA, mais les experts affirment que des fonctionnalités de contrôle supplémentaires seraient un avantage pour les grands comptes, en particulier pour les hyperscalers qui exploitent des réseaux IA. « Les commutateurs modernes savent déjà ce qui se passent en interne de manière détaillée (congestion, baisses, tampons, indicateurs RDMA, latence), mais ces informations sont invisibles à moins d'être exportées. Leur transmission vers un système central permet d'observer le réseau en temps réel, non seulement via les journaux, mais aussi via l'état opérationnel en direct. Ce point est particulièrement critique pour les clusters d'IA, où de minuscules problèmes réseau peuvent bloquer les tâches des GPU synchronisées et gaspiller d'énormes ressources de calcul », a expliqué Sameh Boujelbene, vice-président du Dell'Oro Group. « Les opérateurs ont donc besoin d'une visibilité simultanée sur le réseau et les hôtes (congestion, mise en mémoire tampon NIC, comportement RDMA et performances collectives). L'idée principale est d'unifier la télémétrie des hôtes et du réseau en une seule vue corrélée. De nombreuses défaillances se produisent entre les couches, et une surveillance cloisonnée masque la cause profonde. Une chronologie unique combinant les deux perspectives permet aux opérateurs de voir l'ensemble du pipeline et de diagnostiquer beaucoup plus rapidement les problèmes de performances complexes », a ajouté M. Boujelbene.
Selon Alan Weckel, cofondateur et analyste du 650 Group, la télémétrie est essentielle pour comprendre ce qui se passe réellement dans les fabrics IA, et Arista dispose déjà de nombreuses fonctionnalités de ce type côté commutateur. L'équipementier a racheté Big Switch et sa technologie Big Cloud Fabric en 2020. Cette technologie permet aux clients de gérer les commutateurs physiques comme un seul fabric, y compris la sécurité, l'automatisation, l'orchestration et l'analyse. Il est important de noter que le logiciel peut fonctionner sur une variété de commutateurs certifiés de Dell EMC, HPE et d'autres fournisseurs. « Le produit BigSwitch leur apporte des sondes supplémentaires, et je pense que nous en verrons davantage à mesure que les normes, comme celles de l'Ultra Ethernet Consortium, progresseront », a avancé M. Weckel. « Les commentaires de M. Duda lors de la conférence téléphonique d'Arista sur les résultats du quatrième trimestre donnent une indication sur la direction que prend le secteur », a fait remarquer M. Weckel. « Les opérateurs ont vraiment besoin d'une vision unifiée qui dépasse la vision d'un seul fournisseur (NIC, scale out, scale up, scale across) afin de monétiser pleinement ces actifs GPU. Les outils doivent donc évoluer aussi rapidement que l'infrastructure matérielle », a-t-il déclaré.
Une avance sur les concurrents
Selon Ryan Koontz, analyste senior chez Needham & Company, l'extension de la visibilité de l'IA devrait considérablement renforcer les capacités déjà robustes de la pile logicielle EOS et de la plateforme CloudVision d’Arista. « Mes recherches sur les hyperscalers et, plus récemment, sur le back-end de l'IA m’incitent à dire que la capacité actuelle d'Arista en matière de télémétrie en continu constitue un facteur de différenciation majeur et que la concurrence a des années de retard dans ce domaine », a affirmé M. Koontz. « L'entraînement de l'IA est extrêmement sensible à la perte de paquets, domaine dans lequel cette capacité de télémétrie excelle vraiment. C'est l'une des principales raisons pour lesquelles Arista s'impose rapidement comme un acteur majeur du back-end, alors que les hyperscalers cherchent à réduire leur dépendance vis-à-vis de Nvidia. Je suppose que cette télémétrie s'intègre parfaitement dans la conteneurisation d'EOS, qui est largement en avance sur ses concurrents », a ajouté M. Koontz.

Commentaire