GPU, interconnexion réseau, LLM, la présence de Nvidia dans l’IA est importante. Il vient de rajouter la brique orchestrateur de charges de travail IA sur les infrastructures dédiées avec le rachat de SchedMD, pour un montant non communiqué. Fondé en 2010, l’éditeur propose un gestionnaire open source de workload IA baptisé Slurm et qui est largement utilisé pour le calcul haute performance et les clusters IA. Il joue un rôle central dans la planification et la répartition des tâches volumineuses et gourmandes en ressources sur des milliers de serveurs (CPU et GPU). Dans un blog, Nvidia indique « continuer à développer et à distribuer Slurm en en tant que logiciel open source et indépendant des fournisseurs et s’engage à le rendre largement accessible et pris en charge par la communauté HPC et IA au sens large, dans divers environnements matériels et logiciels ».
Ces engagements soulignent la volonté de Nvidia de renforcer son écosystème logiciel ouvert tout en garantissant que Slurm reste indépendant des fournisseurs et largement accessible aux utilisateurs confrontés à des charges de travail IA de plus en plus complexes. Ce rachat fait également suite à l'annonce par la firme de Santa Clara du lancement d’une famille de modèles d'intelligence artificielle open source, Nemotron 3.
Slurm, un aiguilleur des tâches IA vers les bonnes ressources
À mesure que les clusters IA gagnent en taille et en complexité, la planification de la charge de travail est de plus en plus liée aux performances du réseau, ce qui affecte les flux de trafic est-ouest, l'utilisation des GPU et la capacité à maintenir le fonctionnement efficace des structures à haut débit. « Slurm excelle dans l'orchestration de formations distribuées sur plusieurs nœuds, où les tâches s'étendent sur des centaines, voire des milliers de GPU », a expliqué Lian Jye Su, analyste en chef chez Omdia. « Le logiciel peut optimiser le mouvement des données au sein des serveurs en décidant du placement des tâches en fonction de la disponibilité des ressources. Grâce à une forte visibilité sur la topologie du réseau, Slurm peut diriger le trafic vers des zones dotées de liaisons à haut débit, minimisant ainsi la congestion du réseau et améliorant l'utilisation des GPU. »
Charlie Dai, analyste principal chez Forrester, s’accorde pour dire que la logique de planification de le projet open source joue un rôle important dans la façon dont le trafic se déplace au sein des clusters IA. « Slurm orchestre l'allocation des GPU et la planification des tâches, et influence directement les modèles de trafic est-ouest dans les clusters IA », a-t-il déclaré. « Une planification efficace réduit les GPU inactifs et minimise les transferts de données entre nœuds, tout en améliorant le débit de la communication entre GPU, ce qui est essentiel pour les charges de travail IA à grande échelle », a-t-il ajouté. « Même si Slurm ne gère pas directement le trafic réseau, ses décisions de placement peuvent avoir un impact considérable sur le comportement du réseau », a fait remarquer pour sa part Manish Rawat, analyste chez TechInsights. Selon lui, « si les GPU sont placés sans tenir compte de la topologie du réseau, le trafic inter-rack et inter-spine augmente fortement, ce qui accroît la latence et la congestion ». Dans l'ensemble, ces avis d'analystes montrent pourquoi le rapprochement de Slurm avec la pile GPU et réseau de Nvidia pourrait donner à l'entreprise une plus grande influence sur la manière dont l'infrastructure IA est orchestrée de bout en bout.
Un risque d’une meilleure intégration avec Nvidia
Pour les entreprises, ce rachat renforce la volonté générale de Nvidia d’accroître les capacités réseau de sa pile IA, qui couvre la reconnaissance de la topologie GPU, les interconnexions NVLink et les structures réseau haut débit. « Cette acquisition marque la volonté de lier la planification des GPU avec le comportement des structures, et pas celle d’un verrouillage immédiat », a estimé Manish Rawat. « La combinaison des intentions au niveau des tâches de Slurm avec la télémétrie des GPU et des interconnexions permet de prendre des décisions de placement plus intelligentes. »
Cela dit, Lian Jye Su a fait remarquer que, même si Slurm restera open source et indépendant des fournisseurs, l'investissement de Nvidia est susceptible d'orienter le développement vers certaines fonctionnalités, par exemple une intégration plus étroite de sa bibliothèque de communications collectives (NCCL), une allocation plus dynamique des ressources réseau et une meilleure connaissance des structures réseau de Nvidia, y compris une planification plus optimisée pour les environnements InfiniBand et RoCE. Cela signifie que cette initiative pourrait inciter les entreprises qui exploitent des clusters IA multifournisseurs à migrer vers l'écosystème de Nvidia afin d'obtenir de meilleures performances réseau. « Les entreprises qui préfèrent éviter un alignement plus profond pourraient plutôt évaluer d'autres frameworks, tels que Ray », a ajouté l’analyste de chez Omdia.
Quelles conséquences pour les clients ?
Pour les utilisateurs actuels de Slurm, les analystes s'attendent à ce que la transition se fasse en grande partie sans heurts, avec une perturbation limitée des déploiements actuels, d'autant plus que Slurm devrait rester open source et indépendant des fournisseurs. « Des contributions continues de la communauté sont attendues, ce qui devrait atténuer les biais », a avancé Lian Jye Su. « Les entreprises et les fournisseurs de cloud qui disposent déjà de serveurs équipés en Nvidia peuvent s'attendre à un déploiement plus rapide des fonctionnalités optimisées pour ce matériel et à des performances globales supérieures. »
Charlie Dai alerte cependant sur le fait qu'une intégration plus poussée avec la pile IA de Nvidia pourrait entraîner des changements opérationnels que les entreprises devront anticiper. « Les entreprises et les fournisseurs de cloud doivent s'attendre à des fonctionnalités de planification améliorées tenant compte des GPU et à une intégration plus poussée de la télémétrie avec les outils Nvidia, ce qui pourrait nécessiter des mises à jour des workflows de surveillance et des stratégies d'optimisation du réseau, en particulier pour les structures Ethernet », a pointé M. Dai.