Si les agents IA se déploient progressivement dans les entreprises, la question de leur fiabilité demeure. La meilleure réponse est de les évaluer avant leur mise en production. Dans ce cadre, Microsoft publie un framework open source de test baptisé Asser (adaptive spec-driven scoring for evaluation and regression testing), conçu pour transformer des exigences formulées en langage naturel en tests exécutables. L’outil vise ainsi à renforcer l’offre de l’éditeur dans le domaine de la gouvernance IA.

Différents scénarios générés

Selon la firme de Redmond, Assert peut générer automatiquement des scénarios d’évaluation, des jeux de données, des métriques et des tableaux de bord à partir de documents tels que des spécifications fonctionnelles, des cahiers des charges ou encore des règles de gouvernance. « Les agents échouent de manière difficile à détecter », souligne l’entreprise dans un billet de blog annonçant la publication du projet. « Ils peuvent s’écarter des politiques définies, produire des résultats dangereux dans certains cas limites ou se comporter différemment en production par rapport aux phases de test. Les benchmarks génériques ne sont pas en mesure d’identifier ces défaillances, car ils ne sont pas construits autour de vos politiques, de votre agent ou de votre cas d’usage. »

L’objectif est d’éviter aux développeurs la création manuelle de suites de tests complexes. Le framework traduit les intentions exprimées dans les documents métier en évaluations réutilisables, directement intégrables aux pipelines de développement et de déploiement des applications d’IA. Avec cette annonce, l'entreprise se positionne sur un marché de plus en plus concurrentiel. Des acteurs tels que LangSmith de LangChain, Braintrust, Patronus AI, Galileo, Phoenix d’Arize AI ou encore Promptfoo proposent déjà des outils offrant aux entreprises la possibilité de mesurer, surveiller et valider les performances de leurs applications basées sur les grands modèles de langage (LLM).

Les tests comportementaux restent peu matures

Concrètement, les pratiques d’évaluation restent encore largement marginales. « La plupart des entreprises, en réalité 99 % d’entre elles, n’évaluent pas leurs agents IA avant leur mise en production », affirme Anushree Verma, directrice analyste senior chez Gartner. Pour elle, l’enjeu est désormais ailleurs : l’avantage concurrentiel dans l’IA agentique dépendra de moins en moins des modèles eux-mêmes, et de plus en plus de la capacité à tester et simuler les agents en amont. « Le prochain fossé concurrentiel dans l’IA agentique ne reposera pas sur la sophistication des modèles de raisonnement ni sur l’architecture sous-jacente », explique-t-elle. « Il dépendra de la profondeur et du réalisme de l’environnement d’entraînement, notamment grâce à la simulation d’agents pour les déploiements critiques. »

Gartner estime que d’ici 2029, plus de 75 % des agents spécialisés conçus sans test préalable dans les secteurs réglementés ne parviendront pas à générer la valeur attendue. De son côté, Forrester observe une progression des pratiques d’évaluation comportementale, tout en soulignant qu’elles ne constituent pas encore une exigence systématique avant mise en production. « La plupart des entreprises se trouvent encore dans une phase intermédiaire où l’évaluation comportementale est appliquée de façon irrégulière plutôt que considérée comme un véritable critère bloquant », indique Biswajeet Mahapatra, analyste principal chez Forrester. Selon ses données, plus de 45 % des organisations utilisent déjà des agents IA et 25 % supplémentaires les expérimentent, mais beaucoup peinent encore à passer à l’échelle en raison d’une gouvernance insuffisante. 

Les juges IA nécessitent une supervision humaine

Microsoft indique qu’Assert s’appuie sur des grands modèles de langage utilisés comme « juges » pour évaluer les résultats. Selon les validations internes de l’entreprise, les évaluations générées par ces modèles concordent avec celles des examinateurs humains dans 80 à 90 % des cas. Si ce niveau de concordance garanti d’automatiser une large part des tests IA, il ne doit pas être considéré comme un mécanisme de gouvernance suffisant à lui seul, prévient Biswajeet Mahapatra. « Un taux d’accord de 80 à 90 % avec les évaluateurs humains démontre un bon alignement, mais il n’est pas suffisant pour constituer un contrôle autonome en matière de gouvernance ou de conformité », estime-t-il.

Les entreprises devraient plutôt adopter une approche à plusieurs niveaux, où l’IA évalue l’IA à grande échelle, tandis que les humains conservent la responsabilité de supervision pour les situations à risque élevé, réglementées ou ambiguës. Les utilisateurs doivent également rester vigilants face aux biais potentiels, aux problèmes de cohérence et aux risques liés à l’utilisation d’un même modèle comme générateur et évaluateur, ajoute-t-il.

Besoin d’avoir plusieurs évaluateurs

Publié sous licence open source MIT, Assert donne aux entreprises la possibilité d’inspecter, modifier et intégrer le framework dans leurs workflows de développement IA existants. Pour autant, le passage à l’open source ne résout pas entièrement les questions liées à la neutralité des évaluations, souligne Biswajeet Mahapatra. « Une publication sous licence MIT réduit les risques de verrouillage propriétaire et favorise l’interopérabilité entre différents écosystèmes de modèles », explique-t-il.

« Cependant, elle n’élimine pas totalement les interrogations concernant la confiance ou les conflits d’intérêts potentiels, car le fournisseur à l’origine du framework continue d’influencer la manière dont les critères d’évaluation, la logique de notation et les définitions des comportements acceptables sont codifiés. » Plutôt que de s’appuyer sur un unique framework d’évaluation, les entreprises devraient donc confronter leurs systèmes IA à plusieurs approches d’évaluation et conserver la maîtrise de leurs propres politiques internes de validation, conclut l’analyste.