La forte latence de l'inférence et la spirale des coûts des GPU sont devenues les principaux obstacles au déploiement de systèmes d'IA agentiques. Ces flux de travail génèrent souvent des milliers de tokens par requête, créant un écart de performance que le matériel actuel a du mal à combler. Des chercheurs de l'université du Maryland, du Lawrence Livermore National Labs, de l'université Columbia et de TogetherAI affirment pouvoir tripler la vitesse d'inférence sur des benchmarks de raisonnement en affinant des modèles pré-entraînés afin que l'accélération soit nativement intégré, évitant ainsi le recours au décodage spéculatif ou à des modèles auxiliaires.
Dans une recherche publiée début février, l'équipe décrit une technique de prédiction multi token (MTP) qui convertit les modèles standard de tokens suivants en MTP via un service de distillation. Lors des tests de référence, cette approche a permis d'obtenir une accélération plus de trois fois supérieure avec une perte de précision minimale, un compromis qui pourrait séduire les entreprises qui peinent à trouver un équilibre entre le coût et la qualité des modèles dans les systèmes IA de production. Le modèle final conserverait la même implémentation que le point de contrôle initial pré-entraîné et serait déployable sans ajout de vérificateur auxiliaire ou autre code d'inférence spécialisé.
Fonctionnement de MTP
Les LLM traditionnels génèrent un token à la fois basé sur les précédents, une conception qui limite intrinsèquement le débit. Ce goulot d'étranglement en série est particulièrement problématique pour les modèles de raisonnement, qui génèrent des milliers de tokens au cours d'une « chaîne de pensée » (chain of thought), même pour des réponses finales courtes. La production de plusieurs jetons en une seule étape réduit à la fois la latence et le coût. Pour garantir la cohérence, les chercheurs s'appuient sur une configuration élève-enseignant. En utilisant une analogie avec un gardien de zoo, ils notent qu'un modèle prédisant plusieurs mots indépendamment pourrait produire un résultat absurde, par exemple « le gardien de zoo a donné de la viande à un panda ». Le modèle enseignant évalue ces intervalles multi-tokens pour s'assurer qu'ils ont un sens ensemble. « Nous proposons un paradigme d'entraînement inspiré de l’apprentissage par renforcement (reinforcement learning, RL) dans lequel un modèle élève génère une série de prédictions de tokens simultanées », ont déclaré les chercheurs dans l'article. « Pour éviter les pièges de l'objectif hors ligne standard, la sortie de l'élève est notée par un critique/enseignant LM, plutôt que d'être notée par rapport à une séquence de tokens de vérité terrain connue. » Ils ajoutent « en comparant les prédictions de l'élève aux suggestions de tokens suivants faites par l'enseignant, nous produisons un signal de récompense conforme à la politique qui permet à l'élève d'améliorer rapidement la qualité de ses prédictions multi token », ont-ils ajouté.
Au moment de l'inférence, le système utilise une stratégie de décodage adaptative en fonction du niveau de confiance (ConfAdapt) qui détermine de manière dynamique le nombre de tokens à émettre par passage. Lorsque le modèle est très confiant, il produit des blocs plus importants. Lorsque l'incertitude augmente, il revient à des étapes plus petites, préservant ainsi la précision tout en conservant les gains de vitesse. Lors d'expériences sur des benchmarks de raisonnement mathématique GSM8K, un modèle à 8 milliards de paramètres a atteint une accélération supérieure à 3 fois avec une baisse de précision inférieure à 3 %. Un modèle plus petit à 4 milliards de paramètres a atteint des accélérations similaires, mais avec une baisse de précision plus importante de 7 %. Des configurations plus agressives ont permis d'atteindre une accélération 5 fois supérieure, mais au prix d'une baisse de précision plus importante. Contrairement au décodage spéculatif, qui nécessite des modèles spéculatifs auxiliaires et des pipelines d'inférence spécialisés, cette approche forme un modèle unique qui conserve la même implémentation que le point de contrôle d'origine et ne nécessite aucun vérificateur auxiliaire.
Quel impact pour l'IA en entreprise
Selon les analystes, la question la plus importante est de savoir si cette approche modifie de manière significative la conception des piles d'inférence en production. « Le décodage spéculatif tente de briser cette contrainte en introduisant un modèle provisoire qui propose des tokens et un modèle cible qui les vérifie », a expliqué Sanchit Vir Gogia, analyste en chef chez Greyhound Research. « En théorie, cela permet une accélération sans perte. En pratique, le coût de la vérification, l'interaction par lots et la dérive entre le modèle provisoire et le modèle cible réduisent les gains réalisés. » En revanche, selon lui, l'approche multi-token conserve la structure autorégressive, mais déplace l'optimisation vers la phase d'entraînement. « L'impact économique dépend de la distribution de l'entropie dans la sortie », a ajouté M. Gogia.
« Dans les tâches structurées ou nécessitant beaucoup de raisonnement, des intervalles prévisibles peuvent être émis dans des blocs plus grands avec une dégradation limitée. Dans la génération ouverte à entropie plus élevée, l'accélération diminue. Il s'agit d'une compression sélective, et non d'une vitesse universelle. » Cette distinction est importante pour les déploiements en entreprise. « ConfAdapt est fondamentalement sensible à l'entropie », a déclaré M. Gogia. « Son avantage stratégique est maximisé dans les charges de travail caractérisées par un échafaudage structuré, des segments de langage déterministes et des résultats consultatifs soumis à la supervision humaine. » Selon M. Gogia, les entreprises devraient considérer cette technique comme un levier d'efficacité calibré plutôt que comme un commutateur d'accélération universel.