Comment les DSI tentent de limiter la consommation de tokens

Les services et outils GenAI utilisant des tokens pour produire des résultats peuvent rapidement devenir coûteux. Cela pousse les responsables informatiques à rechercher de nouveaux moyens pour réduire l'utilisation des jetons et réaliser des économies.

Les outils et services d’IA générative (GenAI) étant désormais omniprésents (et très populaires) dans les entreprises, les coûts liés à leur utilisation montent en flèche, ce qui entraîne une consommation insatiable de tokens. Les jetons constituent un moyen courant de mesurer et de tarifer l’utilisation de l’IA. À l’instar de ce que représentent des lettres et des mots pour une langue, les grands modèles de langage (LLM) appréhendent une phrase ou une requête en décomposant les mots en tokens. Avec l’explosion de l’IA, ils sont désormais « les unités fondamentales de données que nos modèles traitent, beaucoup d’entre elles représentant un problème en cours de résolution », selon Sundar Pichai, CEO de Google qui - soit dit en passant - traite environ 3,2 quadrillions de tokens par mois.

Mais alors que le coût de tous ces jetons ne cesse d’augmenter, les dirigeants d’entreprise et les responsables IT cherchent des moyens de réduire les coûts tout en maintenant la productivité de leur entreprise. Il faut savoir que l'utilisation incontrôlée des tokens a déjà valu à une entreprise une facture inattendue de 500 M$ liée à l’IA. Pour éviter le scénario du pire, les entreprises ont plusieurs moyens pour maîtriser le coût de l’IA au niveau des modèles, de l’infrastructure, des puces et des activités commerciales. Voici un aperçu de la manière dont certaines de ces économies pourraient concrètement être réalisées.

1/ Passer à des modèles moins coûteux

Une façon potentielle de réaliser des économies consiste à réorienter les tâches d’IA vers un modèle moins onéreux, a déclaré M. Pichai. Chez Google, il s’agirait de Gemini 3.5 Flash. Ce modèle propose « des capacités de pointe à moins de la moitié du prix des modèles de pointe comparables ». « Si les entreprises utilisent une combinaison de [Gemini 3.5] Flash et d’autres modèles de pointe, elles pourraient réaliser d’importantes économies », a précisé le dirigeant. Ce type de modèles fournit des tokens moins coûteux, avec un raisonnement suffisamment performant pour de nombreux utilisateurs - même s’il n’est pas aussi puissant que celui du modèle phare Gemini 3.5 - pour fournir des résultats utiles.

« Les [LLM] sont parfois surdimensionnés », a déclaré Deepak Seth, analyste senior chez Gartner. « Je n’ai pas toujours besoin d’un grand modèle de langage entraîné sur les œuvres de Charles Dickens, de Shakespeare et de Harry Potter. » Steven Dickens, analyste principal chez Hyperframe Research, ne peut s’empêcher d’utiliser Quick d’Amazon, qui coûte 20 $ par mois, pour ses tâches personnelles. « C’est un excellent retour sur investissement personnel, car cela m’a non seulement permis d’accélérer certaines tâches, mais aussi d’en réaliser d’autres que je n’aurais même jamais osé entreprendre auparavant », a expliqué M. Dickens.

2/ Ne pas oublier la partie matérielle et logicielle de l’équation

La crise des jetons n’est pas nouvelle, a complété Dheeraj Pandey, CEO de DevRev, qui compare ce qui se passe actuellement sur le marché de l’IA aux bouleversements apparus avec l’arrivée du cloud computing et de la virtualisation il y a plusieurs années. « Nous avons laissé le chaos régner, puis nous avons dû le maîtriser », a déclaré M. Pandey. « Les termes que les gens ont commencé à utiliser étaient la consolidation des serveurs et la virtualisation. » La solution au problème des jetons, a-t-il ajouté, est la même : « Tout ce qui concerne les systèmes peut être résolu grâce à la mise en cache et à l’indirection [capacité à traiter des données via une table virtuelle, une balise, un format de chaine de caractères...] »

DevRev, par exemple, met en place une couche mémoire entre les agents IA et les sources de données primaires, telles que Salesforce ou les enregistrements ERP ; cela permet de réduire la charge en jetons et de rendre le transfert de données plus efficace. Cette couche contient un graphe de connaissances avec des réponses aux questions courantes des agents et fonctionne sur des processeurs (CPU) moins coûteux, évitant ainsi les cycles de circuits graphiques (GPU) plus onéreux. Envoyer les agents directement vers des systèmes comme ServiceNow et Salesforce « consommera beaucoup plus de jetons. Ce n’est pas non plus précis. Et enfin, ce n’est pas suffisamment sûr pour que je puisse revenir en arrière au cas où un agent aurait commis une erreur », a souligné M. Pandey.

Le spécialiste au automatisation réseau NetBrain utilise une méthode différente : elle recourt à l’informatique classique pour cartographier la structure d’un réseau, puis ne transmet que les informations clés aux modèles pour la planification et le raisonnement, domaines dans lesquels l’IA excelle. « Ainsi, vous n’avez pas à dépenser tous les jetons », a indiqué Song Pang, directeur technique de NetBrain.

3/ Miser sur l’efficacité des prompts

L’agence de recrutement ManpowerGroup a constaté que l’efficacité des prompts peut constituer un outil efficace pour optimiser l’utilisation des jetons, tant en interne qu’en externe pour ses clients. Par exemple, les utilisateurs accédant à son outil interne du marché du travail avaient initialement besoin de 10 questions complémentaires pour approfondir une requête. Un an plus tard, une utilisation plus efficace des prompts a permis de ramener ce nombre à quatre en moyenne, a déclaré Max Leaming, responsable des solutions de science des données et d’IA chez ManpowerGroup. « Ils utilisent moins de tokens et sont tout simplement plus efficaces », a-t-il déclaré. « Et cela tient en grande partie à votre capacité à formuler des prompts de manière efficace. »

4/ Basculer en local

Des postes de travail avec plus de capacités IA et capable de travailler en local pourraient atténuer en partie la crise des coûts. Lors de la GTC Taipei au début du mois, Nvidia et Microsoft ont dévoilé RTX Spark, un PC de bureau capable d'exécuter en local un modèle de plusieurs milliards de paramètres sous Windows. L’objectif est « d’apporter une intelligence illimitée à chaque foyer et à chaque bureau équipé de Windows », a fait savoir Satya Nadella, CEO de Microsoft, dans un communiqué.

Certaines entreprises cherchent à réduire les coûts de l’IA dans le cloud en installant leur propre matériel dans des datacenters, des fournisseurs tels que HPE et Dell proposant des serveurs installés dans des installations indépendantes. Et ce dans un contexte où les préoccupations liées à la souveraineté en matière d’IA et à la géopolitique, alimenté notamment par le récent conflit au Moyen-Orient où de grands centres de données dont ceux d'AWS ont été touchés par des missiles. « Il existe des solutions d’IA locales, spécifiques à certaines régions et proposées par plusieurs fournisseurs. Tous ces éléments peuvent contribuer à atténuer le risque. Mais ils ne vont pas l’éliminer », prévient Max Goss, analyste et directeur senior chez Gartner.

5/ Faire appel à des ingénieurs déployés sur site

La réduction des coûts par jeton pourrait incomber aux ingénieurs déployés sur site (Forward deployed engineers ou FDE) dans les environnements clients, a souligné Taimur Rashid, directeur général du Generative AI Innovation Center d’AWS. Les FDE sont des ingénieurs logiciels spécialisés qui travaillent directement avec les clients pour mettre en œuvre et personnaliser des solutions technologiques, notamment dans le domaine de l'IA et des systèmes complexes. « Je m’attends à ce que ces équipes soient capables de concevoir des systèmes tenant compte de ces contraintes de coût, qu’il s’agisse d’utiliser un modèle différent ou un cas d’utilisation différent qui n’augmente pas le coût par token », a déclaré M. Rashid.

Les entreprises peuvent dépenser des sommes importantes en consommation de jetons, « mais si vous générez du chiffre d’affaires, tant que la rentabilité est au rendez-vous, alors vous n’avez pas à vous inquiéter », a ajouté M. Rashid. L’utilisation des FDE gagne du terrain, les décideurs informatiques cherchant à la fois à mettre en œuvre des déploiements d’IA réussis tout en gardant un œil sur les coûts.

6/ Passer d’une clé de succès basée sur les tokens à celle sur les résultats

Même si l’accent est actuellement mis sur la réduction de l’utilisation des tokens pour réaliser des économies, les indicateurs utilisés pour mesurer le succès de l’IA sont susceptibles d’évoluer, a déclaré Deepak Seth. À un moment donné, la tarification basée sur les tokens évoluera vers un modèle axé sur les résultats, où l’unité de valeur sera constituée par les résultats, et non par des fragments de mots. « Certaines entreprises s’orientent vers une tarification basée sur les résultats », assure Deepak Seth. « Lorsque les gens commenceront à prendre conscience du coût réel des tokens, les entreprises se pencheront alors sur l’efficacité de leur utilisation. »

Sur le même thème

Partenaires

Comment les DSI tentent de limiter la consommation de tokens

Livres blancs

1/ Passer à des modèles moins coûteux

2/ Ne pas oublier la partie matérielle et logicielle de l’équation

3/ Miser sur l’efficacité des prompts

4/ Basculer en local

5/ Faire appel à des ingénieurs déployés sur site

6/ Passer d’une clé de succès basée sur les tokens à celle sur les résultats

Commentaire

Suivre toute l'actualité

Newsletter

Livres blancs

1/ Passer à des modèles moins coûteux

2/ Ne pas oublier la partie matérielle et logicielle de l’équation

3/ Miser sur l’efficacité des prompts

4/ Basculer en local

5/ Faire appel à des ingénieurs déployés sur site

6/ Passer d’une clé de succès basée sur les tokens à celle sur les résultats

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter