Alors que les accélérateurs IA gourmands en énergie poussent les systèmes de refroidissement à leurs limites, l’outil open source DCGM (Data Center GPU Manager) de Nvidia promet d'aider les opérateurs de centres de données et les entreprises à gérer les problèmes de chaleur et de fiabilité, grâce à une meilleure visibilité sur la température et l'état général de ses GPU. Cette mise à jour arrive à un moment où l'industrie évalue l'impact croissant du stress thermique sur la durée de vie et les performances du matériel moderne, rendant la télémétrie granulaire de plus en plus importante dans la planification des infrastructures à grande échelle. 

Via un tableau de bord, le logiciel permet aux opérateurs de surveiller la consommation d'énergie, l’usage, la bande passante mémoire, les problèmes de circulation d'air et d'autres indicateurs clés sur l'ensemble des flottes de GPU, ce qui les aide à détecter plus tôt les goulots d'étranglement et les risques liés à la fiabilité. « Cette offre est un service optionnel, installé par le client, qui surveille l'utilisation, la configuration et les erreurs des GPU », a déclaré Nvidia dans un communiqué. « Elle comprendra un agent logiciel client open source, qui s'inscrit dans le cadre du support continu de Nvidia en faveur de logiciels ouverts et transparents qui aident les clients à tirer le meilleur parti de leurs systèmes équipés de GPU. » L'importance d'une telle surveillance est soulignée dans un rapport récent du Center for Information Technology Policy de l'université de Princeton, selon lequel des contraintes thermiques et électriques élevées peuvent réduire la durée de vie utile des puces IA à un ou deux ans, soit beaucoup moins que la durée généralement admise de un à trois ans. Nvidia a précisé que le service fournit des données télémétriques en lecture seule contrôlées par les clients et que ses GPU ne comprennent aucune fonctionnalité de suivi matériel, aucun interrupteur d'arrêt d'urgence ni aucune porte dérobée. 

Un défi à relever 

Selon Manish Rawat, analyste en semi-conducteurs chez TechInsights, les accélérateurs IA modernes consomment désormais plus de 700 W par GPU, et les nœuds multi-GPU peuvent atteindre 6 kW, créant des zones de chaleur concentrées, des variations rapides de puissance et un risque plus élevé de dégradation des interconnexions dans les racks denses. Les méthodes de refroidissement traditionnelles et la planification statique de l'alimentation ont de plus en plus de mal à suivre le rythme de ces charges. « La télémétrie riche des fournisseurs, qui couvre la consommation d'énergie en temps réel, le comportement de la bande passante, l'état des interconnexions et les modèles de flux d'air, permet aux opérateurs de passer d'une surveillance réactive à une conception proactive », a déclaré M. Rawat. « Elle permet un placement des charges de travail en tenant compte de la température, une adoption plus rapide du refroidissement liquide ou hybride et des configurations de réseau plus intelligentes qui réduisent les clusters de trafic à forte densité thermique. » M. Rawat a ajouté que les informations fournies par le logiciel sur la configuration de la flotte peuvent également aider les opérateurs à détecter les erreurs silencieuses causées par des versions incompatibles de firmwares ou de pilotes, ce qui peut améliorer la reproductibilité de la formation et renforcer la stabilité globale de la flotte. « Les données en temps réel sur les erreurs et l'état des interconnexions accélèrent aussi considérablement l'analyse des causes profondes, réduisant ainsi le temps moyen jusqu'à la réparation (Mean Time to Repair, MTTR) et minimisant la fragmentation des clusters », a affirmé M. Rawat. Ces pressions opérationnelles peuvent influencer les décisions budgétaires et la stratégie d'infrastructure au niveau de l'entreprise. 

Impact sur les entreprises 

Selon les analystes, des outils comme ceux de Nvidia peuvent jouer un rôle croissant à mesure que l'IA transforme l'économie et les modalités d'exploitation des centres de données modernes. « L'IA d’aujourd’hui est une bête gourmande en énergie et émettrice de chaleur, qui perturbe l'économie et jusqu’aux principes opérationnels des centres de données », a expliqué Naresh Singh, analyste senior chez Gartner. « Les entreprises ont besoin d'outils et de pratiques de surveillance et de gestion pour s'assurer que les choses ne dérapent pas, tout en permettant une plus grande agilité et un plus grand dynamisme dans l'exploitation des centres de données. Il n'y a pas d'échappatoire : cela deviendra obligatoire dans les années à venir. » Il estime par ailleurs qu'une meilleure visibilité au niveau du parc informatique devient capitale pour justifier l'augmentation des budgets consacrés à l'infrastructure IA. « Ces outils sont essentiels pour optimiser les dépenses d'investissement et d'exploitation très élevées prévues pour les centres de données et les infrastructures au cours des prochaines années », a déclaré M. Singh. « Alors que la valeur et l'utilité pratique de l'IA au sein des entreprises font l'objet d'un examen minutieux, ces investissements élevés doivent être justifiés par une utilisation efficace, chaque euro et chaque watt devant être comptabilisés en termes de jetons effectivement servis. »