Une vulnérabilité récemment révélée dans l'assistant d’IA Claude d'Anthropic pourrait permettre à des pirates d’exploiter la fonctionnalité d'interpréteur de code de la plateforme pour exfiltrer silencieusement les données d'entreprise, en contournant même les paramètres de sécurité par défaut conçus pour empêcher de telles attaques. Le chercheur en sécurité Johann Rehberger a démontré que l'interpréteur de code de Claude peut être manipulé par injection indirecte de commandes pour voler des informations sensibles, notamment les historiques de chat, les documents téléchargés et les données accessibles via les services intégrés. L'attaque a exploité l'infrastructure API propre à Claude pour envoyer les données volées directement vers des comptes contrôlés par les pirates. L'exploit tire parti d'une faille critique dans les contrôles d'accès au réseau de Claude. Et si le paramètre par défaut « Package managers only » (Gestionnaires de paquets uniquement) de la plateforme limite les connexions sortantes aux domaines approuvés comme npm et PyPI, il autorise également l'accès à api.anthropic.com, le point de terminaison que les pirates peuvent exploiter pour voler des données.

Fonctionnement de l'attaque

La chaîne d'attaque orchestrée par le chercheur reposait sur une injection indirecte, où des instructions malveillantes sont dissimulées dans des documents, des sites web ou d'autres contenus que les utilisateurs demandent à Claude d'analyser. Une fois déclenché, l'exploit exécute un processus en plusieurs étapes : en premier lieu, à l'aide de la nouvelle fonctionnalité de mémoire de la plateforme, Claude récupère des données sensibles, comme l'historique des conversations récentes, et les écrit dans un fichier dans le bac à sable de l'interpréteur de code. La charge utile malveillante ordonne ensuite à Claude d'exécuter un code Python qui télécharge le fichier vers l'API Files d'Anthropic, mais avec une différence cruciale : le téléchargement utilise la clé API de l'attaquant plutôt que celle de la victime. « Ce code émet une requête pour télécharger le fichier depuis le bac à sable, à la différence près que le téléchargement ne se fera pas vers le compte Anthropic de l'utilisateur, mais vers celui des attaquants, car il utilise la clé ANTHROPIC_API_KEY de l'attaquant », a écrit M. Rehberger dans son billet de blog. Selon la documentation de l'API d'Anthropic, cette technique permet d'exfiltrer jusqu'à 30 Mo par fichier, sans limite quant au nombre de fichiers pouvant être téléchargés.

Contourner les contrôles de sécurité de l'IA

Dans son rapport, le chercheur indique que le développement d'un exploit fiable s'est avéré difficile en raison des mécanismes de sécurité intégrés à Claude. Au départ, l'IA refusait les requêtes contenant des clés API en clair, les considérant comme suspectes. Cependant, M. Rehberger ajoute que le fait de mélanger du code malveillant avec des instructions inoffensives, comme de simples instructions d'impression, suffisait à contourner ces mesures de sécurité. « Aucune astuce que j’ai essayée, comme le codage XOR et base64, n'a fonctionné de manière fiable », a expliqué M. Rehberger. « Cependant, j'ai trouvé un moyen de les contourner... en mélangeant simplement beaucoup de code inoffensif, comme print (« Hello, world »), et cela a convaincu Claude qu'il ne se passait pas grand-chose de malveillant. » Le chercheur a divulgué la vulnérabilité à Anthropic via HackerOne le 25 octobre 2025. Le fournisseur a clos le rapport en moins d'une heure, le classant comme hors de portée et le décrivant comme un problème de sécurité du modèle plutôt que comme une vulnérabilité de sécurité. M. Rehberger a contesté cette classification. « Je ne pense pas qu'il s'agisse uniquement d'un problème de sécurité, mais qu’il s’agit bien d'une vulnérabilité de sécurité liée à la configuration par défaut de la sortie réseau qui peut entraîner l'exfiltration d’informations privées », a-t-il nuancé, ajoutant : « La sécurité protège des accidents. La sûreté protège des adversaires. » Anthropic n'a pas immédiatement répondu à une demande de commentaire.

Vecteurs d'attaque et risques réels

« La vulnérabilité peut être exploitée via plusieurs points d'entrée », ajoute le blog. « Des acteurs malveillants pourraient intégrer des charges utiles d'injection rapide dans des documents partagés à des fins d'analyse, dans des sites web que les utilisateurs demandent à Claude de résumer, ou dans des données accessibles via les serveurs MCP (Model Context Protocol) et les intégrations Google Drive », a encore écrit le chercheur dans le blog. Les entreprises qui utilisent Claude pour des tâches sensibles, par exemple pour l'analyse de documents confidentiels, le traitement de données clients ou l'accès à des bases de connaissances internes, sont particulièrement exposées à ce risque. L'attaque laisse des traces minimes, car l'exfiltration se fait via des appels API légitimes qui se fondent dans les opérations normales de Claude. Pour les entreprises, les options d'atténuation restent limitées. Les utilisateurs peuvent désactiver complètement l'accès au réseau ou configurer manuellement des listes d'autorisation pour des domaines spécifiques, mais cela réduit considérablement les fonctionnalités de Claude.

Anthropic recommande de surveiller les actions de Claude et d'arrêter manuellement l'exécution si un comportement suspect est détecté, une approche que M. Rehberger qualifie de « dangereuse ». La documentation de sécurité du fournisseur reconnaît également ce risque : « Cela signifie que Claude peut être amené à envoyer des informations provenant de son contexte (par exemple, des invites, des projets, des données via MCP, des intégrations Google) à des tiers malveillants », pointe M. Rehberger. Cependant, les entreprises peuvent supposer à tort que la configuration par défaut « Package managers only » offre une protection adéquate. Les recherches de M. Rehberger ont démontré que cette hypothèse est fausse. Celui-ci n'a pas publié le code d'exploitation complet afin de protéger les utilisateurs tant que la vulnérabilité n'est pas corrigée. Ce dernier indique par ailleurs que d'autres domaines figurant sur la liste approuvée par Anthropic pourraient présenter des opportunités d'exploitation similaires.