Les entreprises ne peuvent pas sécuriser les agents IA en renforçant la robustesse des modèles sous-jacents. Elles doivent plutôt mettre en place des contrôles de sécurité au niveau du système qui les entoure. C’est ce qu’affirment des chercheurs de Google, de l'Université de Californie à San Diego, de l'Université du Wisconsin-Madison et d'autres institutions, parmi lesquels Mihai Christodorescu, Earlence Fernandes et Somesh Jha. Dans un article publié ce mois-ci, ils alertent sur l’inadaptation croissante des approches traditionnelles de la sécurité de l'IA au fonctionnement réel des agents autonomes au sein des environnements d'entreprise. Dans cette publication, les chercheurs soutiennent que les entreprises devraient cesser de traiter les agents IA comme des composants logiciels de confiance et les sécuriser plutôt comme des systèmes fondamentalement non fiables fonctionnant au sein de l'infrastructure d'entreprise. « Le modèle IA qui alimente l'agent doit être traité comme un composant non fiable », ont écrit les chercheurs, avertissant que les « garde-fous sémantiques » et les défenses au niveau des prompts ne suffisent pas à eux seuls à sécuriser de manière fiable les systèmes une fois que les agents ont accès aux outils, à la mémoire, aux API, aux navigateurs et aux environnements d'exécution de l'entreprise. Les auteurs comparent ces systèmes avec les systèmes d'exploitation. « À l'instar d'un système d'exploitation qui traite un processus comme non fiable, nous estimons que le modèle qui alimente l'agent doit être traité comme non fiable et que les propriétés de sécurité doivent être définies et appliquées en dehors, au niveau du système global », ont-ils préconisé.
Cinq principes issus de la sécurité des systèmes
Selon les auteurs, les systèmes agentiques devraient suivre cinq principes résultant de décennies de recherche en sécurité des systèmes : le principe du privilège minimal, la résistance à la falsification de la base informatique de confiance, la médiation complète, la sécurité des flux d'informations et la prise en compte de l'humain comme maillon faible. À titre de preuve, les auteurs ont analysé onze attaques réelles contre des agents IA et ont associé chacune d'entre elles aux principes qu'elle enfreignait. Parmi ces attaques figuraient l'exfiltration de données depuis l'application ChatGPT pour macOS, une faille d'exfiltration dans Claude Code, une vulnérabilité d'exfiltration dans Microsoft Copilot et l'attaque AgentFlayer contre Cursor via un ticket Jira malveillant. Chacune de ces onze attaques a enfreint le principe de flux d'informations sécurisé, selon l'article, tandis que la plupart ont enfreint le principe du privilège minimal.
Les auteurs ont rejeté l’idée selon laquelle la superposition de garde-fous d’apprentissage machine équivaut à une défense. « La simple superposition de modèles ML ne constitue pas une véritable défense en profondeur », ont-ils estimé, car les modèles de garde-fous « partagent souvent les mêmes modes de défaillance statistiques que les agents principaux qu’ils surveillent ». Pour mettre ces principes en pratique, les auteurs ont proposé trois mécanismes de sécurité, chacun lié à un problème de recherche ouvert que la communauté n’a pas encore résolu. Le premier consiste à séparer les instructions des données, car les modèles de langage mélangent les deux dans un flux unique de tokens sans distinction de leurs sources. Le deuxième est la génération vérifiable de politiques de privilèges minimaux, rendue difficile par le fait que les politiques de sécurité des agents sont rédigées en langage naturel et évoluent au fur et à mesure que la tâche progresse, ce qui les rend difficiles à traduire en règles qu’un système peut appliquer. Le troisième est le contrôle des flux d’informations, car le suivi de la circulation des données sensibles à travers un modèle reste un problème non résolu.
Sécuriser au-delà du modèle
L'article remet en question l'une des hypothèses dominantes qui ont façonné les efforts des entreprises en matière de sécurité de l'IA au cours des deux dernières années : celle selon laquelle des modèles de plus en plus performants, des techniques d'alignement et des défenses rapides, finiraient par rendre les systèmes IA suffisamment sûrs pour un déploiement en entreprise. Au contraire, les chercheurs soutiennent que les agents IA devraient être de plus en plus traités comme des environnements d'exploitation ou des systèmes distribués plutôt que comme des applications d'entreprise conventionnelles, car ils combinent raisonnement, autonomie, mémoire persistante et exécution d'outils externes dans une seule couche opérationnelle. « Les garanties de sécurité ne peuvent pas découler uniquement de meilleures prompts, d’un réglage de l’alignement ou de mesures d’atténuation côté modèle », indique l’article, selon lequel les entreprises ont plutôt besoin d’une isolation plus forte au moment de l’exécution, de limites de confinement, d’une exécution avec le moins de privilèges possible et de contrôles d’observabilité des workflows autour des agents IA. Cela conduit à des situations dans lesquelles l'injection de prompts ne se résume plus à un simple problème de manipulation de contenu, mais devient potentiellement un problème d'exécution des workflows et d'intégrité des systèmes, susceptible d'influencer les actions en aval dans les environnements d'entreprise interconnectés.
Les chercheurs pensent également que les outils de sécurité d'entreprise actuels ne disposent pas d'une visibilité suffisante en temps réel sur la manière dont les agents IA raisonnent, invoquent des outils, gèrent la mémoire et exécutent des actions au sein des systèmes d'entreprise. Un autre article de recherche publié récemment met aussi en évidence un problème similaire sous un angle différent, en affirmant que les plateformes traditionnelles de détection et de réponse aux incidents sur les terminaux ne peuvent pas inspecter de manière adéquate les flux de raisonnement des agents IA, les chaînes de prompts, les interactions en mémoire ou l'exécution dynamique des outils. L'article propose ce que les chercheurs présentent comme un framework de « détection et réponse agentique » (agentic detection and response, ADR) conçu spécifiquement pour les environnements d'agents IA. « Les outils de sécurité actuels ne sont pas conçus pour observer comment raisonnent les agents ou les traces de leur raisonnement », ont écrit les chercheurs, faisant valoir que les piles de sécurité d'entreprise existantes ont été conçues pour surveiller des applications déterministes et l'activité des terminaux, et non des systèmes capables de planification autonome, de raisonnement probabiliste et d'orchestration dynamique des workflows. L'article décrit un déploiement en production surveillant quotidiennement plus de 10 000 sessions d'agents IA sur environ 7 200 hôtes, dans le cadre duquel, selon les chercheurs, le framework a identifié des centaines d'incidents d'exposition d'identifiants et d'autres risques liés aux agents, couvrant 26 catégories d'attaques. « Selon un benchmark présenté par l'équipe, appelé ADR-Bench, le système a détecté 67 % des attaques sans aucun faux positif, surpassant de deux à quatre fois trois références, dont LlamaFirewall de Meta, en termes de score F1 », indique l'article. Sur AgentDojo, un benchmark public d'injection de prompts, il a détecté toutes les attaques avec trois fausses alertes sur 93 tâches.

Commentaire