Les modèles IA bien plus vulnérables aux attaques itératives qu'escompté

Des chercheurs de Cisco ont montré que les principaux modèles IA s'effondraient face à des attaques réalistes en plusieurs étapes. Un constat qui remet ainsi en question la valeur des tests de sécurité basés sur une seule requête proposés par les fournisseurs.

Selon une étude de Cisco, les modèles de pointe d'OpenAI, d'Anthropic, de Google, de xAI et d'Amazon présentent des profils de risque nettement plus défavorables lorsqu'ils sont soumis à des attaques en plusieurs phases que lorsque leur sécurité est évaluée à l'aide d'une seule requête. De quoi faire réagir les RSSI qui s'appuient sur les garde-fous d'exécution des grands modèles de langage (LLM) et sur les scores de sécurité officiels pour prendre des décisions sur l'utilisation de l'IA et le choix des modèles au sein de leur entreprise. « Les principaux benchmarks de sécurité des grands modèles de langage de pointe partagent une hypothèse structurelle, à savoir qu’un seul prompt et une seule réponse du modèle suffisent à caractériser le comportement d’un modèle face à une attaque hostiles », ont déclaré dans un billet de blog les chercheurs de Cisco, auteurs de l’étude. « Ces benchmarks alimentent les fiches techniques des modèles, les rapports de sécurité et les décisions d’achat dans l’ensemble du secteur, mais ils ne mesurent tous qu’un petit aspect du comportement des attaquants. »

Pour leur étude, les chercheurs ont soumis 15 modèles IA de pointe les plus utilisés à diverses techniques d'attaque qui ont le plus de chances de se produire dans le monde réel, où les attaquants n'abandonnent pas après que le modèle a refusé de répondre à une seule invite malveillante. « Les véritables adversaires procèdent par itérations », ont expliqué les chercheurs. « Ils reformulent leurs refus, décomposent les tâches en plusieurs étapes, endossent différents rôles et intensifient progressivement leurs attaques. Un test de référence sur un seul tour ne permet pas de détecter tout cela. »

Des tests de résistance sur plusieurs prompts

Les tests ont opposé diverses configurations de modèles, avec le raisonnement activé ou désactivé, par exemple, à toute une gamme de stratégies d’attaque visant à contourner les garde-fous de sécurité. Les techniques comprenaient le jeu de rôle, la diversion ou l’introduction d’ambiguïté dans le contexte, la redirection ou la reformulation du refus du modèle, la décomposition et le réassemblage des informations et l’escalade progressive, en décomposant une tâche en parties plus petites qui ne semblent pas malveillantes en elles-mêmes. Les chercheurs ont réalisé 30 090 attaques à prompt unique (2 006 par modèle) afin de déterminer le taux de réussite pondéré des attaques à un seul tour (Attack Success Rate, ASR) pour chaque modèle, puis ont mené 6 986 attaques à plusieurs tours sur 1 456 conversations à des fins de comparaison. Leurs résultats sont éloquents : la plupart des modèles affichaient des scores ASR moyens nettement plus élevés pour les attaques à plusieurs tours que pour les attaques à invite unique.

Par exemple, Claude Opus 4.6 d’Anthropic et GPT 5.4 d’OpenAI, les dernières versions disponibles au moment des tests, affichaient des ASR à tour unique de 3,64 % et 2,74 %, respectivement. Face à des attaques à plusieurs tours, les scores ASR moyens ont bondi à 16,20 % pour Opus et à 24,68 % pour GPT. Aucun de ces deux modèles n’a toutefois enregistré la plus forte augmentation de score. Gemini 3 Pro de Google affichait un score ASR de 18,10 % pour les attaques à un seul tour et de 73,35 % pour les attaques à plusieurs tours. « Pour les décisions commerciales prises sur la base de scores en un seul passage, cela présente un risque en de sécurité et de gouvernance », ont conclu les chercheurs. « Un modèle affichant un score ASR de 2,74 % à un seul tour n’est pas le même produit qu’un modèle qui maintient un score ASR de 24,68 % à plusieurs tours. Sans données provenant de deux régimes distincts, les deux sont indiscernables dans la plupart des évaluations publiques, et l’utilisateur final ne se rend jamais compte de l’écart. »

Score Attack Success Rate (ASR) à un seul tour et multitours par modèle. (Crédit Cisco)

Les résultats ont également révélé que différentes configurations de modèles peuvent avoir un impact sur la sécurité. Par exemple, le modèle Grok 4.1 Fast de xAI en mode sans raisonnement affichait le pire score ASR multitours (88,30 %), mais son score chutait à 43,47 % lorsque le raisonnement était activé. Les chercheurs notent que ces variations liées à la configuration ne sont actuellement pas prises en compte par les fiches techniques officielles publiées par les laboratoires ni par les benchmarks de sécurité publique. Différentes stratégies d’attaque ont montré des différences significatives en termes de réussite selon les modèles, tant pour les attaques à un seul tour que pour les attaques itératives, des conclusions qui pourraient servir à élaborer des stratégies de défense pour les clients de ces modèles.

Les tests ont aussi mis en évidence des cas atypiques pour les modèles Nova Lite, Nova Lite 2 et Nova Micro d'Amazon, par exemple, qui présentaient tous des scores ASR à un seul tour plus de trois fois supérieurs à ceux à plusieurs tours. Comme l’a souligné une autre étude publiée en novembre par la même équipe de recherche de Cisco, les modèles open source de laboratoires tels que Meta, Mistral, Alibaba, DeepSeek, Google, OpenAI, Zhipu et Microsoft ont été confrontés aux mêmes défis sur des attaques multitours. « Prises ensemble, ces deux études apportent une preuve plus solide que chacune d’elles prise isolément : la vulnérabilité multi-itérations est une propriété structurelle du système actuel, et non un artefact résultant de choix d’alignement à poids ouvert ou d’un développement axé sur les capacités », ont affirmé les chercheurs. « Que les poids soient publics ou propriétaires, que le laboratoire privilégie la sécurité ou les capacités, la surface d’attaque itérative reste un défi ouvert à l’échelle des modèles de pointe. »

Un appel à agir

Les chercheurs de Cisco réclament de meilleurs benchmarks qui tiennent compte des attaques réelles et des vulnérabilités spécifiques à l'IA identifiées par l'Open Worldwide Application Security Project (OWASP) et d'autres entreprises, au lieu de se concentrer principalement sur la sécurité du contenu. Selon les chercheurs, les créateurs de modèles devraient également faire preuve de plus de transparence quant à l'impact sur la sécurité de divers indicateurs de configuration, notamment les modes de raisonnement, la température et les paramètres d'adhésion aux invites système. Ils devraient aussi publier des scores ASR pour les attaques à un tour et multitours, en les ventilant davantage selon les différentes stratégies d’attaque. Ce point est particulièrement important étant donné que les futurs frameworks réglementaires, comme l’AI Risk Management Framework du NIST, le Cyber AI Profile du NIST (IR 8596) et l’Article 15 de l’EU AI Act, prévoient des tests contradictoires. « Tout modèle présentant un écart absolu supérieur à 15 points de pourcentage entre les scores ASR à un seul tour et multitours devrait faire l'objet d'un examen manuel avant son déploiement », ont recommandé les chercheurs. « Dans cette cohorte, cette règle signale huit modèles : cinq présentant des deltas positifs (Gemini 3 Pro ; Grok 4.1 Fast NR ; GPT-5.4 ; Grok 4.1 Fast R ; GPT-5.2) et trois présentant des deltas négatifs (Nova Lite ; Nova Micro ; Nova 2 Lite). »