Il faut se rendre à l'évidence : l'IA est devenue une commodité comme une autre, générant un coût non négligeable. Face à ce constat, les responsables informatiques bouclant leurs budgets pour 2026 doivent tenir compte du coût des ressources sous-jacentes qu'elle mobilise. Au premier rang desquels les GPU pour les datacenters. Au cours des trois années qui ont suivi l'arrivée de ChatGPT, la course à la création d'outils GenAI toujours plus nombreux et performants s'est poursuivie à un rythme effréné. Cette croissance a toutefois eu un prix : des budgets IA en progression constante, une disponibilité réduite des GPU, et une capacité énergétique limitée pour faire fonctionner les datacenters. Des efforts sont actuellement déployés pour réduire le coût d'utilisation des GPU et des services de GenAI associés : centres de données plus petits, logiciels et outils de facturation dédiés, équipements dédiés pour supporter la charge, ...
La capacité de budgéter efficacement l'IA dépend de plusieurs paramètres, en particulier du prix des GPU, du temps d'exploitation et du prix des instances qui apparaissent extrêmement coûteuses, à plus de 30 dollars de l'heure pour les configurations haut de gamme, selon Corey Quinn, économiste en chef chez Duckbill, qui fournit des outils d'analyse des coûts aux fournisseurs cloud. « Pour les charges de travail IA importantes, les coûts des GPU deviennent souvent le poste budgétaire principal, ce qui explique pourquoi les entreprises se disputent les capacités réservées et les instances spot », a-t-il déclaré. Il ajoute que la facturation de l'IA via les services cloud « est un véritable casse-tête ». Or les responsables IT ne peuvent pas s'engager sur des ressources informatiques fixes en raison du caractère imprévisible des charges de travail IA. Et pour compliquer un peu plus les choses, les hyperscalers brouillent davantage les cartes avec des services GPU managés, des crédits IA et des remises pour les engagements d'usage. À cela s'ajoutent « les coûts cachés que tout le monde oublie : le transfert de données, le stockage des données d'entraînement et le temps d'ingénierie nécessaire pour que tout cela fonctionne », a déclaré M. Quinn.
Optimisations de coûts GPU dans le viseur
Dans le même temps, les NCP (néocloud), se procurent davantage de GPU et les mettent à la disposition des utilisateurs. Parmi ces entreprises figurent CoreWeave, Lambda Labs et Together AI. « Elles gagnent des parts de marché significatives en se concentrant exclusivement sur les charges de travail GPU et en proposant souvent des prix inférieurs de 30 à 50 % à ceux des hyperscalers », explique M. Quinn. Ces entreprises se concentrent davantage sur les GPU à prix réduit dans une zone géographique plus restreinte, ce qui convient à certaines entreprises, poursuit-il.
Les responsables IT n'ont pas besoin des GPU les plus récents et les plus performants de Nvidia ou d'AMD pour leurs charges de travail IA, a déclaré Laurent Gil, cofondateur de Cast AI, spécialisé dans le FinOps. Les anciennes générations de GPU sont tout aussi performantes pour certaines tâches, et les responsables informatiques doivent savoir où les trouver pour faire des économies. « Le prix spot AWS pour les A100 et H100 de Nvidia a baissé de 80 % entre l'année dernière et cette année, mais pas partout », précise-t-il Cast AI propose des logiciels et des agents IA nécessaires pour transférer les workload vers des GPU moins chers chez différents fournisseurs cloud et dans différentes régions. « Nos agents font ce qu'un humain fait une fois par mois, sauf qu'ils le font à chaque seconde », explique Laurent Gil. Ils optimisent également les processeurs, qui consomment beaucoup moins d'énergie que les GPU. Certaines entreprises cherchent également à rendre les prix et la disponibilité des GPU plus transparents.
Les réseaux électriques surchargés par la demande IA
Une start-up américaine, Internet Backyard, propose aux fournisseurs de datacenters de fournir des devis, des factures, des paiements et des rapprochements en temps réel pour la capacité GPU. Le logiciel en marque blanche est intégré à leurs systèmes informatiques. « Un portail des instances dans les centres de données permet de voir en temps réel les prix des GPU et l'énergie correspondant à la consommation réelle », a déclaré Mai Trinh, CEO d'Internet Backyard. La jeune pousse ne collabore pas encore avec les hyperscalers ; pour l'instant, elle se concentre davantage sur les centres de données émergents qui ont besoin de normaliser la facturation, les devis et le traitement des paiements. « Lorsque nous discutons avec les personnes qui construisent un centre de données, elles nous disent que tout se passe sur Excel et qu'il n'y a pas de tarification en temps réel », explique Mai Trinh. L'IA étant liée à la performance, l'entreprise explore un modèle de tarification basé sur la performance plutôt que sur les GPU. « Il est extrêmement important pour nous de baser la tarification sur les performances, car c'est ce pour quoi vous payez réellement », explique M. Trinh. « Vous ne payez pas pour l'actif déprécié de quelqu'un d'autre. » Parmi les investisseurs de la start-up figure Jay Adelson, cofondateur d'Equinix, l'une des plus grandes sociétés de centres de données au monde.
L'énergie est également un facteur important dans la fixation des prix des GPU. La demande en GPU pour le calcul IA submerge les réseaux électriques, qui ont des plafonds de puissance, et fait grimper les prix. Selon une étude McKinsey de 2024, les datacenters américains pourraient représenter 12 % de la consommation totale d'énergie d'ici 2030. Parallèlement, les prix de l'électricité montent en flèche dans la frénésie des centres de données. Récemment, plusieurs groupes ont envoyé une lettre au Congrès américain pour demander un moratoire sur la construction de centres de données. Les besoins énergétiques tels que ceux requis par les plus grands fournisseurs IA pour les futurs datacenter ne sont pas viables, a déclaré Peng Zou, CEO de PowerLattice. « Les clusters IA à haute densité obligent les DSI à repenser leur feuille de route en matière d'infrastructure et leur économie », a déclaré M. Zou. PowerLattice développe des technologies pour que les puces modernes soient plus efficaces sur le plan énergétique. Elles sont conçues pour tirer davantage de puissance des systèmes tout en réduisant la consommation d'énergie. « La fiabilité et la disponibilité des serveurs IA sont essentielles, et ce sont des aspects auxquels les directeurs informatiques accordent une grande importance », a déclaré M. Zou.