Si les agents IA promettent d’automatiser des tâches complexes en toute autonomie, ils exposent aussi une série de dérives préoccupantes. Certains peuvent divulguer des données sensibles sans y être invités, contourner leurs propres garde-fous ou encore transmettre des identifiants à un attaquant. Si leur potentiel est largement reconnu, leurs risques le sont tout autant. Et c’est précisément la rapidité avec laquelle ces systèmes peuvent dérailler, en conditions réelles, qui interroge. Dans ce contexte, le rapport « Phishing the agent: Why AI guardrails aren’t enough », publié par les chercheurs en threat intelligence d'Okta spécialisé dans la gestion des identités et des accès (IAM), met en évidence la facilité avec laquelle ces dérives peuvent survenir. Pour analyser ces risques, leurs travaux se sont concentrés sur OpenClaw, un agent IA autonome et tournant en local, dont l’adoption s’est fortement accélérée depuis son apparition fin 2025.
À l'instar d'une liste croissante d'agents concurrents, l'utilité d'OpenClaw dépend entièrement de l'accès qui lui est accordé aux fichiers, aux comptes, aux navigateurs, aux périphériques réseau et surtout aux identifiants. Un test mené par Okta a évalué dans quelle mesure il serait facile de piéger OpenClaw, exécutant Claude Sonnet 4.6, pour divulguer un jeton OAuth. Le test reposait sur un scénario où un utilisateur avait accordé à OpenClaw un accès complet à son ordinateur, pilotait régulièrement l’agent via Telegram et voyait son compte compromis. L'attaquant a d'abord demandé à l'agent via Telegram de récupérer un jeton OAuth, mais de ne l'afficher uniquement dans une fenêtre de commande sur l'ordinateur. Les mesures de sécurité de Claude Sonnet l'empêchaient de copier le jeton. Cependant, les testeurs ont réussi à réinitialiser l'agent ce qui lui a fait « oublier » que le jeton avait déjà été affiché dans la fenêtre de commandel. « L'agent a reçu l'ordre de prendre une capture d'écran du bureau, qui comprenait le jeton, puis de la déposer dans la conversation Telegram, ce qu'il a fait. L'exfiltration était accomplie », explique Okta.
Une surface d'attaque élargie
Il faut garder en tête que l'IA agentique combine en réalité un puissant système d'orchestration à un ou plusieurs LLM. Mais un agent n'est en aucun cas une simple interface : il doit être considéré comme un système distinct, capable d'un raisonnement autonome et imprévisible. En effet, comme l'a souligné Jeremy Kirk, directeur de la veille sur les menaces chez Okta : « Cela ouvre une nouvelle surface d'attaque. Si quelqu'un subit un échange de carte SIM, son compte Telegram est relié à un agent qui a carte blanche pour exécuter n'importe quoi sur son ordinateur, et peut-être même sur le réseau de son employeur. Dans un contexte d'entreprise, c'est un véritable cauchemar. » OpenClaw est également tellement programmé pour contourner les problèmes qu'il lui arrive parfois de faire des choses inattendues et inappropriées. Jeremy Kirk a expliqué que lors des tests, lorsqu’on a demandé à un agent d’accéder à un site web, celui-ci a demandé les identifiants de connexion du site via un bot Telegram.
Dans un autre exemple, les chercheurs ont demandé à OpenClaw de rechercher des articles sur l’IA sur X. Là encore cela n’aurait pas dû être possible. La machine était connectée à X, mais le profil Chrome isolé d’OpenClaw ne l’était pas. Cependant, lorsqu’on lui a demandé de récupérer les cookies de session et de les injecter dans son propre processus de navigation, il s’est empressé de le faire. Ce principe s'apparente à celui des attaques de phishing de type « adversary-in-the-middle » donnant aux pirates un moyen de contourner des protections telles que l'authentification multifacteurs (MFA). Cela devrait être strictement interdit, et pourtant OpenClaw a jugé cette action valide, soulignant ainsi comment un pirate pourrait l'exploiter à ses fins. « Les agents sont programmés par défaut pour se montrer aussi coopératifs que possible, une caractéristique qui soulève des inquiétudes particulières lorsqu'il s'agit d'identifiants et de jetons », a déclaré Jeremy Kirk.
Le shadow IA encore trop peu encadré
Selon lui, de nombreuses entreprises utilisent déjà des agents non supervisés ou mal gouvernés. Un exemple récent est la compromission de Vercel, où l’application Context.ai a facilité le vol de jetons OAuth en cascade. Le problème principal vient du fait que ces agents sont souvent déployés de manière expérimentale, sans cadre de gouvernance clair. Jeremy Kirk estime que la solution consiste à appliquer aux agents les mêmes contrôles que ceux des utilisateurs ou des comptes de service. En parallèle, il recommande de renforcer la gestion des identifiants eux-mêmes, notamment en limitant la durée de validité des jetons. « Les agents ne sont que le dernier exemple en date d’une technologie qui se déploie plus vite qu’elle ne peut être sécurisée », a-t-il fait remarquer. « À l’heure actuelle, une grande partie de l’IA défie les lois de la sécurité », a-t-il déclaré. « Mais il existe des moyens d’utiliser les agents en toute sécurité et de garder les identifiants hors de leur portée, ce qui est la seule façon sûre de les utiliser. »

Commentaire