La sécurité des agents IA est au cœur de beaucoup de préoccupations. Elle l’est d’autant plus quand des chercheurs trouvent des faiblesses dans les mécanismes de sécurité des systèmes IA. Des chercheurs de l’Université de Hong Kong ont découvert une technique transformant les garde-fous des modèles de raisonnement en un vecteur d’attaques par déni de service. Selon les experts, « un seul document empoisonné peut saturer les infrastructures des garde-fous partagées, privant de fait les agents colocalisés de ressources et paralysant l’ensemble du système ».
Ils ont testé la technique sur quatre framework d’agents IA à savoir LangGraph, BrowserGym, OpenHands et OSWorld. Les chercheurs ont constaté une augmentation des temps de traitement sur l’ensemble des déploiements. LangGraph a enregistré le ralentissement le plus important (148 fois), suivi de BrowserGym (131 fois), OpenHands (36,3 fois) et OSWorld (18 fois), selon un rapport.
Le ciblage du raisonnement
« Contrairement aux attaques par injection de prompt et par « jailbreak », qui cherchent à manipuler les résultats des modèles ou à contourner les contrôles de sécurité, cette technique cible le processus de raisonnement utilisé par les garde-fous des agents IA », ont encore écrit les chercheurs dans leur rapport. « À la différence des attaques traditionnelles contre les LLM, qui compromettent principalement l’intégrité, les attaques DoS par extension du raisonnement visent la disponibilité », ont-ils poursuivi, faisant valoir que les débats sur la sécurité de l’IA se sont largement concentrés sur la prévention des résultats dangereux, tout en négligeant l’épuisement des ressources. Ces derniers ont également constaté que des contrôles de sécurité IA plus rigoureux peuvent se traduire par une baisse des performances.
« Plus le raisonnement du garde-fou est rigoureux, plus il prend du temps », ont-ils indiqué, expliquant qu’un raisonnement plus sophistiqué peut involontairement augmenter le temps et les ressources nécessaires au traitement des entrées malveillantes. L'attaque a aussi fonctionné sur huit familles différentes de LLM. Selon les experts, les prompts conçus pour un modèle open source se sont également révélées efficaces contre d'autres modèles, ce qui suggère que les attaquants n'auraient pas besoin d'une connaissance approfondie d'un système propriétaire spécifique. OpenAI et Anthropic, dont les guardrails basés sur le raisonnement sont cités dans l'analyse comme exemples de mécanismes de sécurité alimentés par les LLM, n'ont pas immédiatement répondu aux demandes de commentaires.
La gouvernance IA en question
« Le point essentiel à retenir n’est pas nécessairement de savoir si une technique d’attaque spécifique du type « guardrail DoS » s’avère efficace à grande échelle, mais plutôt que l’infrastructure de gouvernance IA devient de plus en plus critique », a souligné Sakshi Grover, responsable de recherche senior pour les services de cybersécurité chez IDC Asie-Pacifique. « À mesure que les déploiements d’IA agentique mûrissent, les entreprises devront réfléchir à la résilience, à l’évolutivité et à la tolérance aux pannes des plans de contrôle de l’IA, de la même manière qu’elles le font déjà pour les services d’identité, les passerelles API et d’autres plateformes critiques pour l’entreprise », a-t-elle expliqué. La spécialiste a précisé que la gouvernance centralisée de l’IA introduisait également un risque de concentration.
« La dynamique de consolidation est bien réelle : les entreprises rationalisent la gouvernance IA en acheminant plusieurs agents via une infrastructure de sécurité partagée, ce qui crée un risque de concentration », a-t-elle fait remarquer. « Une attaque « guardrail DoS » réussie n’a pas besoin de compromettre quoi que ce soit : il lui suffit de rendre le système inutilisable à un moment critique », a-t-elle poursuivi. « Pour les flux de travail critiques pour l’entreprise, comme le traitement automatisé des réclamations, la réponse aux incidents assistée par l’IA et la détection des fraudes en temps réel, même une latence temporaire ou l’épuisement des ressources pourrait avoir des conséquences importantes », a-t-elle ajouté.
Des mesures d’atténuation partiellement efficaces
Les chercheurs ont constaté que les filtres classiques d'injection de prompts restaient vulnérables à l'attaque proposée, tandis que des limites strictes imposées aux tokens ne faisaient que faire basculer les déploiements entre un comportement « fail-open » qui passe par défaut à un état ouvert en cas de panne, et un comportement « fail-closed » qui bloque tous les flux illégitimes. La réduction des budgets de raisonnement a permis de diminuer la latence, mais a également affaibli les décisions de sécurité, créant ainsi un compromis entre disponibilité et protection. L'étude a par ailleurs révélé que les modèles de raisonnement plus volumineux passaient souvent plus de temps à suivre la structure de raisonnement injectée, amplifiant ainsi l'attaque au lieu de l'atténuer. « Ces résultats soulignent aussi la nécessité pour les entreprises d'aller au-delà de la sécurité au niveau des modèles et de se concentrer sur la gouvernance des systèmes d'IA autonomes », ont estimé les analystes.
« D'ici 2029, plus de 50 % des cyberattaques réussies contre des agents IA exploiteront des failles de contrôle d'accès en utilisant l'injection directe ou indirecte de prompts comme vecteur d'attaque, tandis que d'ici 2028, au moins 80 % des transactions non autorisées des agents IA résulteront de violations de politiques internes ou d'un comportement erroné de l'IA plutôt que d'attaques malveillantes », a expliqué Apeksha Kaushik, analyste principale senior chez Gartner. « La transition vers des systèmes multi-agents autonomes introduit de nouveaux risques, tels que la dérive comportementale et les actions destructrices », a poursuit-elle, ajoutant que les organisations devraient mettre en œuvre une gestion du cycle de vie de la sécurité des agents IA qui valide en permanence l'intégrité des agents, de leur déploiement jusqu'à leur retrait. « Les outils fragmentés actuels ne permettent pas de gérer efficacement les systèmes multi-agents complexes et nécessitent des capacités unifiées de détection, d’identification et de surveillance pour surveiller et bloquer les comportements indésirables à grande échelle », a-t-elle souligné.
Faire passer la gouvernance IA au premier plan
Selon Mme Grover, les entreprises devraient commencer à se préparer dès maintenant en dissociant l'infrastructure de protection des ressources informatiques des agents, en mettant en œuvre des contrôles de protection à plusieurs niveaux ou asynchrones lorsque c’est possible, en surveillant la profondeur de raisonnement anormale et en soumettant explicitement les piles de sécurité IA à des tests de sécurité de type red teaming pour détecter les défaillances de disponibilité, plutôt que de se concentrer exclusivement sur les résultats nuisibles.
« Les choix d'architecture deviennent aussi déterminants que les choix de sécurité des modèles », a déclaré l'analyste. « Les entreprises qui traitent l'infrastructure IA agentique avec la même rigueur que celle qu'elles appliquent à l'infrastructure des applications critiques seront mieux placées. Les autres en feront l'amère expérience. »