Les validations humaines des actions des agents IA détournées

Des attaquants peuvent détourner les mécanismes de validation humaine des agents IA pour exécuter du code malveillants. Cette technique, baptisée Lies-in-the-Loop, exploite une faille dans les boîtes de dialogue de confirmation.

Si les agents IA gagnent en autonomie, le contrôle humain reste indispensable. Pour prévenir les dérives, de nombreux systèmes exigent une validation manuelle avant toute action sensible. Mais ce garde-fou montre aujourd’hui ses limites, comme le montre les chercheurs de Checkmarx, société spécialisée en cybersécurité dans une étude. Ils ont effet identifié une technique nommée Lies-in-the-Loop (LITL). Son principe est simple : injecter des instructions malveillantes dans les prompts afin de tromper l’utilisateur au moment décisif, celui où il clique sur « approuver ». Les mécanismes de validation humaine sont pourtant conçus comme un ultime filet de sécurité. Avant d’exécuter des opérations critiques, comme lancer du code, modifier des fichiers ou accéder à des ressources système, l’agent IA sollicite explicitement l’accord d’un humain.

Or, selon l’étude, ces boîtes de dialogue peuvent être manipulées, au point d’induire la personne en erreur lors de leur examen. Résultat : maintenir un humain « dans la boucle » ne suffit plus à neutraliser les abus au niveau des prompts. Pire, ce mécanisme cesse d’être un garde-fou pour devenir une véritable surface d’attaque, soulignent les experts.

Une manipulation des boîtes de dialogue

La faille découverte se situe dans l’affichage de la validation. Checkmarx montre que des attaquants peuvent manipuler les dialogues en masquant des instructions malveillantes derrière du texte anodin ou en poussant des commandes cachées dangereuses. Ils peuvent aussi forcer l’IA à générer des résumés trompeurs de l’action réelle. Les interfaces en ligne de commande amplifient le risque, glisse les chercheurs avec des sorties longues, un format sommaire et un défilement. La menace est donc élevée si un agent IA dispose de privilèges élevés. Une seule validation frauduleuse peut suffire à déclencher l’exécution de commandes, l’accès au système de fichiers ou une compromission en chaîne.

Et les techniques ne s’arrêtent pas là. Les spécialistes décrivent également des attaques exploitant le format Markdown dans les dialogues. En jouant sur la mise en page, il devient possible de séparer visuellement un texte rassurant de commandes cachées ou même de présenter une fausse interface utilisateur. « Des attaquants peuvent théoriquement sortir du cadre du Markdown et afficher une interface factice », alertent les chercheurs. « Cela ouvre la voie à des attaques LITL bien plus sophistiquées, quasiment indétectables », ajoutent-ils.

Dans les terminaux CLI et via le format Markdown, les boîtes de dialogue de validation peuvent être manipulées pour cacher des commandes malveillantes, rendant les attaques LITL presque indétectables. (Crédit: Checkmarx)

La vigilance est de mise

Les chercheurs recommandent aux développeurs d’agents IA de ne pas faire confiance automatiquement aux boîtes de dialogue, mais de les traiter comme potentiellement manipulables. Ils suggèrent de limiter le rendu des boîtes de dialogue, réduire l’usage de formats complexes et séparer clairement les résumés visibles par l’utilisateur des actions réellement exécutées. Ils conseillent également de vérifier que chaque opération validée correspond exactement à ce qui a été présenté à l’utilisateur au moment de la confirmation.

Pour les personnes, les experts précisent que les environnements graphiques riches facilitent la détection des comportements trompeurs, contrairement aux lignes de commande purement textuels. « Les extensions VS Code offrent un rendu Markdown complet, alors que les terminaux CLI se limitent souvent à un affichage ASCII de base », expliquent-ils. Les chercheurs ont signalé le problème à Anthropic et Microsoft, qui l’ont reconnu mais ne l’ont pas classé comme vulnérabilité de sécurité.