La start-up Lovelace, spécialisée dans les agents IA pour entreprises a publié un benchmark portant sur 12 tâches de recherche financière et métier, sur lequel elle affirme que son agent a atteint des performances comparables à celles de Gemini Deep Research Max de Google pour « moins de 1 % du coût ». Pour réaliser ce test, l'entreprise indique avoir construit un agent de recherche destiné à une banque d'investissement à partir de son moteur de contexte, YottaGraph, et de Gemini 3.1 Flash Lite, sans autre mécanisme de grounding (processus qui transforme une question en enquête documentaire) que YottaGraph lui-même. 

Selon un communiqué, le benchmark a « évalué une série de questions financières et métiers complexes, notamment des comparaisons d'entreprises, des scénarios d'acquisition et des analyses d'investissement. Les rapports ont été évalués sur la base de leur exactitude factuelle, de leur rigueur analytique, de l'utilisation des preuves et de la qualité des citations ». L'expérience a été conçue pour répondre à la question suivante : un agent alimenté par un LLM léger connecté à YottaGraph, et à rien d'autre, peut-il fournir des rapports approfondis de niveau recherche de manière significativement plus rapide et moins coûteuse qu'un modèle Deep Research de référence ?

Une crise à venir liée au coût de l'IA

Selon un billet de blog de l'entreprise, c'est possible : « Sur 12 sujets liés à la banque d'investissement évalués selon une grille de six critères notés de 1 à 10, il a obtenu une moyenne de 9,67 contre 9,87 pour Gemini Deep Research Max (3.1 Pro), pour un coût d'environ six centimes contre sept dollars, et en moins de 5 minutes contre 17 minutes. » Interrogé sur les motivations de ce benchmark, Andrew Moore, CEO de Lovelace et ancien responsable IA chez Google Cloud, explique que « nous savons qu’une crise se profile en raison du coût de l’IA ». Selon lui, les grands fournisseurs de modèles de fondation tels que Google, OpenAI et Anthropic avancent à un rythme tel qu’ils pourraient, volontairement ou non, reléguer la question des coûts au second plan afin de rester en tête de la course à la performance. « Mais si la société doit commencer à déployer l’IA de manière utile, il faut pouvoir le faire sans construire des milliers de réacteurs nucléaires et de centres de données », ajoute-t-il.

Andrew Moore estime par ailleurs que le contexte, davantage que la puissance de calcul, définira la prochaine génération de systèmes IA. Selon lui, les grands modèles de langage se rapprochent davantage du raisonnement humain que de l’informatique traditionnelle, mais sont aujourd’hui confrontés à une limite structurelle : la gestion de la mémoire de travail. « On leur demande de maintenir des milliers d’éléments en mémoire tout en raisonnant, ce qui fait exploser les coûts », explique-t-il. « Plus le contexte est large, plus les coûts augmentent. Résoudre le problème du contexte, c’est résoudre celui du coût. »

L'efficacité, grande oubliée de la course à l'IA

Carmi Levy, analyste indépendant, se dit depuis longtemps mal à l’aise face à la « mentalité de course aux armements pour la domination de l’IA » qui anime le secteur. Selon lui, les benchmarks de Lovelace suggèrent que l’industrie pourrait s’être concentrée sur la mauvaise priorité dès le départ. Il estime que la question de l’efficacité est restée largement invisible dans la course aux modèles toujours plus grands et plus performants. « Ces LLM font la une des médias tandis que les fournisseurs cherchent à démontrer leur supériorité », explique-t-il. « La taille joue certes un rôle dans la capacité à traiter des charges de travail massives, mais nous avons largement négligé la question du coût de ces capacités et de leur réelle pertinence pour les usages métiers. » Pour illustrer son propos, Carmi Levy compare cette logique à un usage inadapté des outils : « Personne n’utiliserait une masse pour resserrer un simple raccord sur son perron. On choisirait plutôt un outil plus petit et plus efficace. La même logique devrait s’appliquer à l’IA. » 

Selon lui, les premières années de l’IA ont été dominées par la recherche de puissance plutôt que d’efficience, sans réelle mise en adéquation entre les coûts et les besoins métiers. « Les entreprises qui utilisent des outils surdimensionnés dépensent probablement beaucoup plus que celles qui adaptent les solutions à leurs besoins spécifiques », ajoute-t-il. À mesure que la facturation à l’usage de l’IA se généralise dans les entreprises, l’efficacité devient un enjeu central. Ce sujet concerne autant les organisations qui cherchent à maîtriser leurs coûts de calcul que les fournisseurs d’infrastructures et les gouvernements, appelés à réfléchir à la pertinence de la course aux grandes infrastructures IA.

Le temps est venu de repenser les modèles d'IA

Sanchit Vir Gogia, analyste principal chez Greyhound Research, a qualifié ce benchmark de « significatif, mais pas de la manière dont le marché va l'interpréter. Il ne s'agit pas d'une victoire nette des petits modèles sur les grands. L'interprétation défendable est plus limitée : pour des recherches circonscrites et fortement fondées sur des preuves, l'architecture entourant un modèle peut réduire de deux ordres de grandeur le coût d'une bonne réponse sans en dégrader la qualité. » Selon lui, « l'industrie a passé trois ans à agir comme si l'intelligence résidait dans le modèle lui-même, en se tournant vers des modèles toujours plus grands dès que la qualité des réponses décevait. Ce réflexe se heurte désormais aux réalités économiques des entreprises avec toute la grâce d'un piano à queue poussé dans un escalier. Un modèle brillant alimenté par un mauvais grounding reste un système très coûteux qui ne fait que deviner. »

Mais la recherche financière, a déclaré Sanchit Vir Gogia, « repose sur des dépôts réglementaires et des entités qui se comportent comme un graphe. C'est un problème en forme de graphe déguisé en activité de recherche. La première question n'est plus de savoir quel modèle est le plus performant, mais quel système fournit des réponses fiables à un coût défendable. Dans l'entreprise, la capacité est désormais une propriété du système, et non plus du modèle. » Les DSI et les CTO, a-t-il ajouté, « devraient considérer cette affirmation comme une invitation à repenser leur modèle opérationnel de l'IA, et non comme une instruction d'achat. La valeur de l'IA est désormais déterminée par quatre disciplines interconnectées : la qualité du contexte fourni, l'orientation des tâches vers le modèle approprié, la gouvernance des workflows et l'observabilité de ce que coûte et réalise le système. » Il a souligné qu'un agent doté d'un mauvais contexte ne se contente pas de produire une réponse médiocre ; il entreprend également de mauvaises actions, ce qui constitue un risque opérationnel. « Les acheteurs devraient exiger le coût d'un workflow complet et s'interroger sur la portabilité de l'architecture, car l'enfermement dans un contexte reste une forme de verrouillage. La mission du DSI consiste à concevoir le chemin le plus sûr entre les preuves et les résultats. »