En un an, l'intelligence artificielle est passée de la dixième à la deuxième place mondiale des risques pour les entreprises. Une progression spectaculaire qui traduit la prise de conscience d'une menace qui change de nature : l'IA n'invente pas de nouvelles attaques, elle les industrialise à une échelle inédite. Nous entendons souvent que « l'IA va tout changer » en cybersécurité. C'est vrai, mais pas de la manière spectaculaire que nous imaginons.
Quand les machines attaquent à la vitesse… de la machine
L'IA générative a transformé l'ingénierie sociale en industrie. Avant l'IA, il était facile de repérer les messages de phishing : fautes d'orthographe, messages vagues ou hors-sujet. Aujourd'hui, les messages frauduleux sont désormais personnalisés avec le nom, le poste, le langage professionnel de la cible. Le clonage vocal, nécessitant seulement quelques dizaines de secondes d'enregistrement souvent accessibles via YouTube ou les réseaux sociaux, permet de générer des voix artificielles quasi indétectables. Des « dark AI ecosystems » se développent, véritables marchés criminels dédiés à l'industrialisation de la persuasion, du phishing sophistiqué aux deepfakes vocaux.
Mais l'industrialisation ne s'arrête pas là. Des chaînes d'attaque émergent où des agents spécialisés enchaînent reconnaissance, génération d'exploits, mouvements latéraux et exfiltration, avec des boucles de feedback. Des preuves de concept montrent des malwares capables de générer dynamiquement du code via des services IA, rendant la détection par signature de plus en plus fragile. L'IA renforce l'évasion, mais elle ne change pas la nature observable des comportements malveillants. Sans inventer de zero day, l'IA permet d'industrialiser la lecture de documentation, les tests de configuration et la génération de code d'exploitation de failles.
L'enjeu pour la défense : réduire la fenêtre d'exploitation. Renforcer l'hygiène de base, réduire drastiquement le time-to-patch, pourquoi pas en s'appuyant sur l'IA pour évaluer la criticité réelle d'une vulnérabilité au sein d'une infrastructure donnée. Il faut maîtriser l'autonomie accordée aux systèmes. Créer des identités dédiées aux agents, avec des permissions minimales, temporaires et contextualisées. Définir explicitement ce qu'un agent a le droit de faire et interdire tout le reste. Imposer une validation humaine pour les actions à impact : paiement, partage externe, modification d'accès. Miser sur la détection comportementale plutôt que sur la forme : injection mémoire, persistance, appels réseau anormaux. Durcir les contrôles d'identité, généraliser les procédures hors bande pour les opérations sensibles, mettre en place des contrôles explicites contre le vishing et les deepfakes vocaux.
Le texte est devenu un vecteur d'injection
L'injection de prompt est l'équivalent moderne des injections SQL : une attaque textuelle sur des systèmes qui exécutent des actions. Le risque réel n'est pas une réponse erronée, mais une action non autorisée. Le texte est devenu un vecteur d'injection à part entière.
Des modèles, notebooks et datasets malveillants ont été identifiés sur des plateformes de partage. La chaîne d'approvisionnement s'étend désormais aux modèles, poids et artefacts ML. Un modèle doit être traité comme un binaire potentiellement hostile, exactement comme nous traitons l'open source dans les développements professionnels. Il faut vérifier la provenance, la réputation et l'intégrité des modèles, les importer via des registres internes avec signature et contrôle, les charger et les convertir dans des environnements isolés.
L'usage non maîtrisé d'assistants, de plugins ou de connecteurs crée un risque systémique de fuite d'informations sensibles. Ce shadow IA représente peut-être la menace la plus insidieuse : invisible, diffuse, portée par l'enthousiasme des collaborateurs eux-mêmes. À partir du moment où l'on connecte un assistant à des outils internes, il devient une voie d'accès aux données internes. Une requête trop large, un périmètre mal défini, un partage mal paramétré peuvent conduire l'agent IA à restituer des informations qu'il n'aurait jamais dû voir.
Comment se défendre ? Séparer strictement confiance et exécution. Appliquer l'OWASP Top 10 LLM comme référentiel de base, séparer clairement instructions système, logique applicative, entrées utilisateur et contenu RAG. Filtrer et analyser le contenu RAG pour détecter des instructions cachées. Tester les applications IA comme nous testons une API critique : scénarios d'injection directe et indirecte intégrés au pipeline CI/CD. Définir clairement quelles données peuvent être utilisées et avec quels outils, privilégier des solutions IA avec garanties contractuelles, mettre en place journalisation, DLP et chiffrement adaptés aux flux IA.
Des garde-fous pour une défense hybride
Un agent IA doit être traité comme un opérateur rapide, obéissant, mais sans discernement du risque. C'est là qu'interviennent les guardrails qui sont aux systèmes IA ce que les protocoles de sécurité sont aux opérateurs humains : des mécanismes explicites qui bornent leur comportement.
Concrètement, les garde-fous prennent la forme de règles et de contrats écrits, par exemple des fichiers de configuration comme agent.md ou claude.md, qui définissent ce que l'agent a le droit de faire (traiter les paiements inférieurs à 1 000€ € aux fournisseurs référencés), ce qui lui est strictement interdit (effectuer un virement vers un nouveau compte bancaire), quand une validation humaine est requise (tout paiement supérieur à ce montant ou modification de coordonnées bancaires), et comment ses actions sont tracées et auditées. Sans ces garde-fous, l'IA n'est pas autonome : elle est dangereuse.
La solution n'est ni dans l'accumulation d'outils, ni dans une fuite en avant vers toujours plus d'IA. Elle tient dans un changement de paradigme. La sécurité symbiotique repose sur une répartition assumée des rôles entre humains et systèmes automatisés. Aux humains revient la définition de l'intention, du cadre et des limites : ce qui est acceptable, ce qui ne l'est pas, et où se situe la responsabilité. Aux systèmes d'IA reviennent l'exécution, la surveillance continue et la capacité à proposer des actions à la vitesse et à l'échelle que les environnements numériques exigent désormais.
Cette relation n'est viable que si elle est encadrée par des guardrails explicites, permettant aux deux parties de se contrôler mutuellement. C'est exactement l'esprit des cadres comme Mitre Atlas et le Nist AI rmf : traiter l'agent comme une surface d'attaque à part entière.

Commentaire