Arrcus optimise le réseau pour l'inférence IA

À mesure que les charges de travail IA passent d'un entraînement centralisé à une inférence distribuée, le réseau est confronté à des exigences en matière de latence, de souveraineté des données, de préférences de modèles et de contraintes énergétiques.

Le réseau devient de plus en plus le point de tension pour l’IA notamment pour l’inférence IA. Celle-ci est distribuée sensible à la latence et soumise à des contraintes en temps réel liées à la disponibilité de l'énergie, à la souveraineté des données et aux coûts. L’architecture réseau qui achemine ce trafic devient de plus en plus un goulot d’étranglement et les structures traditionnelles n'ont pas été conçues pour y faire face. C'est le problème qu'Arrcus s'efforce de résoudre. Le fournisseur basé à San José a passé une décennie à développer ArcOS, un système d’exploitation réseau capable de dissocier les charges de routage et de commutation du matériel propriétaire.

Arrcus vend ses produits aux marchés des centres de données, des télécommunications et des entreprises, et ses solutions sont utilisées dans des milliers de nœuds de réseau à travers le monde. Récemment, il a présenté Interference Network Fabric (AINF), une offre conçue pour diriger de manière dynamique le trafic d'inférence IA à travers une infrastructure distribuée. « Pour favoriser l'adoption de l'IA agentique en améliorant les temps de réponse, les réseaux doivent devenir compatibles avec l'IA », a déclaré Shekar Ayyar, président et CEO d'Arrcus.

Des différences avec d’autres OS réseau

Pour comprendre ce que fait Arrcus avec l'AINF, il faut comprendre ce qu'est réellement ArcOS et où il se situe par rapport à d'autres technologies réseau comme SONiC ou NSX de VMware. SONiC est un OS open source axé sur la commutation qui convient aux opérateurs qui souhaitent étendre la capacité de leur centre de données grâce à un transfert de paquets simple. NSX fonctionne au niveau de la couche de virtualisation comme un réseau overlay pour les environnements de calcul. ArcOS fonctionne au niveau de la couche Layer 3 et il est conçu pour les cas d’usage de routage riches en fonctionnalités : slicing 5G pour les opérateurs, interconnexions de centres de données et environnements où le routage dynamique programmable du trafic est important.

Le déploiement par SoftBank d'Arrcus pour le plan utilisateur mobile SRv6 en est un des exemples. « La commutation est essentiellement une opération plus simple. Il s'agit simplement d'envoyer ou non un paquet », a expliqué M. Ayyar. « Le routage est une opération plus complexe. On indique au paquet où aller et ce qu'il doit faire, ce qui permet de disposer d'une plus grande richesse et de plus de politiques dans ce que l’on fait en matière de routage. » C'est cette base de routage riche en politiques qu'Arrcus applique désormais à l'inférence IA.

Résoudre le problème réseau de l’inférence IA

À mesure que les charges de travail IA passent d'un entraînement centralisé à une inférence distribuée, le réseau est confronté à un autre type d'exigences. Les nœuds d'inférence sont dispersés géographiquement et doivent satisfaire à des contraintes simultanées de latence, de débit, de capacité électrique, de résidence des données et de coût. Ces contraintes varient selon l'emplacement et changent en temps réel, et les réseaux traditionnels n'ont pas été conçus pour les gérer de manière dynamique. « Ces nœuds d'inférence vont désormais devenir extrêmement importants pour comprendre exactement quelles sont les contraintes à ces points d'inférence », a déclaré M. Ayyar. « Selon qu’il s’agit d’une contrainte de puissance, de latence, de débit, il faut diriger et orienter le trafic de manière adaptée. » AINF répond à cette question en introduisant une couche d'abstraction des politiques qui se situe entre l'orchestration basée sur Kubernetes et le silicium sous-jacent. Les modèles exposent leurs exigences via une API, divulguant les paramètres dont ils ont besoin. Ces exigences sont transmises à la couche de routage qui oriente le trafic en conséquence. La solution « accélère en quelque sorte le processus par lequel toutes ces exigences trouvent leur chemin vers le routeur, puis instruisent le nœud de routage à l'emplacement approprié dans ce gigantesque réseau de nœuds de mise en réseau pour qu'il fasse ce qu'il faut afin de satisfaire la politique d'inférence », a encore expliqué le CEO.

Les opérateurs définissent des politiques métiers, notamment des objectifs de latence, des limites en matière de souveraineté des données, des préférences en matière de modèles et des contraintes énergétiques. L’offre évalue ces conditions en temps réel et oriente le trafic d'inférence vers le nœud ou le cache optimal. Les composants comprennent le routage d'inférence basé sur les requêtes avec gestion des politiques, les routeurs d'interconnexion et les réseaux périphériques. Le système s'intègre aux frameworks d'inférence vLLM, SGLang et Triton. La reconnaissance des préfixes est utilisée pour optimiser l'utilisation du cache KV et aider les applications d'inférence à atteindre les objectifs de niveau de service en matière de débit, de latence, de souveraineté des données, de puissance et de coût.

Défis et perspectives

Le dirigeant a identifié deux obstacles à court terme à l'adoption. Le premier est la sensibilisation. Celui-ci fait remarquer que de nombreux clients potentiels ont conçu des architectures d'inférence sans tenir compte des fabrics sensibles aux politiques comme option. Le second est le verrouillage des opérateurs historiques, Cisco et Juniper ayant besoin d'être assurés que l'AINF peut interopérer proprement avec l'infrastructure existante. Selon M. Ayyar, Arrcus a investi massivement dans des tests d'interopérabilité pour remédier à ce problème. La société prévoit de dépasser les 100 millions de dollars de commandes en 2026, un objectif fixé avant toute contribution de l'AINF. L’entreprise prévoit de présenter le produit au MWC de Barcelone (2 au 5 mars) et à la GTC de Nvidia GTC de San Jose (du 15 au 19 mars à San Jose). « Tout ce qui se dit actuellement sur l'IA et les infrastructures qui y sont liées n'est que la partie émergée de l'iceberg », a souligné M. Ayyar. « Ce que les gens ne comprennent pas encore, c'est ce qui se cache sous la surface, où nous pensons que les gains d'efficacité et d'efficience sont dissimulés. Dès que cela sera révélé, ce sera comme si l'on projetait une vision aux rayons X sur le sujet et que l'on disait : « Regardez, c’est vers cela que le monde se dirige. N’attendez-pas. »