De plus en plus d’entreprises se servent de modèles IA ouverts ou open weight, mais ne savent pas s’ils sont complètement sûrs. Microsoft a décidé de travailler sur ce sujet en développant un scanner dédié. Dans un blog, l’éditeur a indiqué que ses recherches se concentraient sur l’identification de déclencheurs cachés et des comportements malveillants intégrés lors de la formation ou du réglage fin des modèles de langage, qui peuvent rester dormants jusqu'à ce qu'ils soient activés par des entrées spécifiques. Grâce à ces portes dérobées, les attaquants peuvent modifier subtilement le comportement des LLM, soit pour exposer des données, soit pour donner à des activités malveillantes la possibilité de passer inaperçues malgré les contrôles de sécurité classiques.

Alors que les entreprises s'appuient de plus en plus sur des modèles tiers et open source pour des applications qui peuvent aller du support client aux opérations de sécurité, l'intégrité de ces modèles fait l'objet d'une attention particulière. « Contrairement aux logiciels traditionnels, où les scanners recherchent des erreurs de codage ou des vulnérabilités connues, les risques liés à l'IA peuvent inclure des comportements cachés implantés dans un modèle », a déclaré Sunil Varkey, analyste en cybersécurité. « Un modèle peut fonctionner normalement, mais réagir de manière néfaste lorsqu'il détecte un déclencheur secret. » Ce risque est d'autant plus préoccupant que les LLM peuvent être déployés sans inspection approfondie, ce qui limite la visibilité des équipes de sécurité sur leur formation ou leurs vulnérabilités.

Des signatures de backdoor trouvées

Les chercheurs de Microsoft ont identifié trois indicateurs observables, ou « signatures », qui suggèrent la présence de portes dérobées dans les modèles de langage. L'un des indicateurs les plus forts est un changement dans la façon dont un modèle réagit à une invite en cas de présence d’un déclencheur caché. Dans les modèles corrompus, les tokens de déclenchement ont tendance à concentrer l'attention du modèle, supplantant ainsi le reste des entrées. « Nous constatons que les jetons de déclenchement ont tendance à « détourner » l'attention des modèles dotés de portes dérobées, créant ainsi un motif distinctif en forme de double triangle », a expliqué Microsoft.

Les chercheurs ont également découvert que les modèles infectés peuvent divulguer des informations sur leur mode de compromission. Dans certains cas, des prompts spécifiques ont amené les LLM à régurgiter des fragments de données d'entraînement utilisées pour insérer la porte dérobée, y compris des parties du déclencheur lui-même. Autre conclusion importante : les portes dérobées des modèles de langage se comportent différemment de celles intégrées dans les applications traditionnelles. Au lieu de répondre uniquement à une chaîne de déclenchement exacte, les LLM corrompus réagissent eux à des versions partielles ou approximatives du déclencheur.

Une efficacité du scanner à démontrer

Selon Microsoft, le scanner ne nécessite pas de réentraînement des modèles ni de connaissances préalables sur le comportement des portes dérobées et fonctionne uniquement à l'aide de passes directes, évitant les calculs de gradient ou la rétropropagation afin de maintenir les coûts de calcul à un niveau faible. Le fournisseur a également précisé que le scanner fonctionnait avec la plupart des LLM de type GPT et qu'il pouvait être utilisé dans une grande variété de déploiements. Les analystes affirment que, même si cette approche améliore la visibilité sur l'empoisonnement des modèles, il s'agit davantage d'une avancée progressive que d'une percée majeure, soulignant que plusieurs plateformes EDR de premier plan revendiquent déjà la capacité de détecter les portes dérobées dans les LLM ouverts.

La question la plus importante est de savoir combien de temps dureront ces avantages dans la détection. « Si ce scanner propose aujourd’hui de contrer les techniques des pirates informatiques dans le monde réel, il y a fort à parier que ces derniers s'adapteront rapidement pour le contourner », a fait remarquer Keith Prabhu, fondateur et CEO de Confidis (société de conseil). « Nous assistons à une répétition de la guerre des virus, où les pirates informatiques n'ont cessé de faire évoluer les virus pour échapper à la détection en utilisant des techniques innovantes comme celles des virus polymorphes. » Cela dit, selon M. Varkey, le scanner est essentiel pour les entreprises qui téléchargent des modèles open source afin de les utiliser ou de les personnaliser dans leurs propres systèmes. « Pour elles, les modèles IA font partie intégrante du cycle de vie du développement, tout comme les bibliothèques logicielles », a expliqué M. Varkey. « Le scanner n'est pas une solution complète, mais il constitue une nouvelle couche de protection importante à mesure que l'adoption de l'IA se développe. »