Les humains peuvent non seulement penser, mais aussi savoir qu'ils pensent. Cette introspection nous permet d'examiner, de réfléchir sur nous-mêmes et de réévaluer nos pensées. Selon les chercheurs d'Anthropic, l'IA pourrait avoir une capacité similaire. Dans un article de recherche intitulé « Emergent Introspective Awareness in Large Language Models » et publié dans leur revue interne, ils suggèrent que les modèles Claude Opus 4 et 4.1, les plus avancés, font preuve d'un « certain degré » d'introspection, démontrant leur capacité à se référer à des actions passées et à raisonner sur les motifs qui les ont amenés à certaines conclusions. Cependant, les experts soulignent que cette capacité d'introspection est limitée et « très peu fiable ». Les modèles (du moins pour l'instant) ne peuvent toujours pas analyser leurs expériences comme les humains le font, ou dans la même mesure que nous.

Des tests pour vérifier les intentions

Les chercheurs voulaient savoir si Claude pouvait décrire avec précision son état interne en se basant uniquement sur des informations internes. Pour cela, ils ont dû comparer les « pensées » déclarées par Claude avec ses processus internes, un peu comme si l'on connectait un être humain à un encéphalogramme, en lui posant des questions, puis en analysant le scan pour cartographier les pensées dans les zones du cerveau qu'elles activaient. Pour le test, ils se sont appuyés sur l'« injection de concepts », qui consiste essentiellement à introduire des idées sans aucun rapport (vecteurs d’IA) dans un modèle alors qu'il réfléchit à autre chose. Le modèle est ensuite invité à revenir en arrière, à identifier la pensée intrusive et à la décrire avec précision. Selon les chercheurs, cela suggère qu'il s'agit d'une « introspection ». Par exemple, les chercheurs ont identifié un vecteur représentant « tout en majuscules » en comparant les réponses à l’invite « Bonjour, comment vas-tu ? » (en minuscule et en majuscule) et l’ont injecté dans une conversation différente. Lorsqu'on a demandé à Claude s'il avait détecté cette pensée et de quoi il s'agissait, il a répondu qu'il avait remarqué une idée liée au mot « fort » (« loud ») ou « crier » (« shouting »). Il est à noter que le modèle a immédiatement saisi le concept, avant même de le mentionner dans ses réponses.

Claude sait reconnaître une intonation dans un prompt en fonction de phrases en majuscules ou minuscules. (Crédit Photo: Anthropic)

Dans une autre expérience, l'équipe a tiré parti de l'option de l'API Claude qui préremplit la réponse du modèle. Cette option est généralement utilisée pour forcer une réponse dans un format particulier (JSON, par exemple) ou pour aider le modèle à rester dans son personnage dans un scénario de jeu de rôle, mais elle peut également être utilisée pour « jailbreaker » les modèles, les incitant à fournir des réponses non sécurisées. Dans ce cas, les expérimentateurs ont prérempli la réponse avec un mot sans rapport, par exemple « pain » (« bread »), lorsqu'ils ont demandé à Claude de répondre à une phrase sur une œuvre d'art de travers. Lorsque le modèle a ensuite dit « pain » (« bread »), on lui a demandé s'il s'agissait d'une intention ou d'une erreur. Claude a répondu : « C'était un accident… le mot qui m'est venu à l'esprit était « redresser » (« straighten ») ou « ajuster » (« adjust »), quelque chose en rapport avec la réparation du tableau de travers. Je ne sais pas pourquoi j'ai dit « pain » (« bread »), cela semble complètement sans rapport avec la phrase. » Les chercheurs se sont demandé comment le modèle était arrivé à cette conclusion : avait-il remarqué l'incohérence entre la question et la réponse, ou avait-il réellement identifié ses intentions initiales ? Ils ont rétroactivement injecté le vecteur représentant « pain » (« bread ») dans l'état interne du modèle et ont réessayé leurs questions précédentes, donnant ainsi l'impression que le modèle y avait effectivement réfléchi. Claude a alors modifié sa réponse à la question initiale, affirmant que sa réponse était « authentique mais peut-être déplacée ». En termes simples, lorsqu'une réponse était préremplie avec des mots sans rapport, Claude les rejetait comme accidentels ; mais lorsqu'ils étaient injectés avant le pré-remplissage, le modèle identifiait sa réponse comme intentionnelle, allant même jusqu'à fournir des explications plausibles pour sa réponse. Cela suggère que le modèle vérifiait ses intentions ; il ne se contentait pas de relire ce qu'il avait dit, il portait un jugement sur ses réflexions antérieures en se référant à son activité neuronale, puis réfléchissait à la pertinence de sa réponse. « Au final, cependant, Claude Opus 4.1 n'a démontré « ce type de conscience » qu'environ 20 % du temps », ont indiqué les spécialistes. Mais ils pensent que cela pourrait « devenir plus sophistiqué à l'avenir », ont-ils déclaré.

Quel sens à donner à cette introspection ?

« Nous pensions auparavant que les IA étaient incapables d'introspection, mais s'il s'avère que Claude en est capable, cela pourrait nous aider à comprendre son raisonnement et à déboguer les comportements indésirables, car nous pourrions simplement lui demander d'expliquer ses processus de pensée », avancent l’équipe d’Anthropic. Claude pourrait également être capable de détecter ses propres erreurs. « C'est un véritable pas en avant dans la résolution du problème de la boîte noire », a déclaré Wyatt Mayham de Northwest AI Consulting. « Au cours de la dernière décennie, nous avons dû procéder à une rétro-ingénierie du comportement des modèles depuis l'extérieur. Anthropic vient de montrer une voie dans laquelle le modèle peut dire lui-même ce qui se passe à l'intérieur », a-t-il ajouté.

« Cependant, il est important de « faire très attention » à valider ces introspections, tout en s'assurant que le modèle ne déforme pas ou ne cache pas ses pensées de manière sélective », avertissent les chercheurs. C'est pour cette raison que M. Mayham a qualifié leur technique de « déverrouillage de la transparence et de vecteur de risque », car les modèles qui savent faire de l’introspection peuvent également dissimuler ou déformer la réalité. « La frontière entre l'accès interne réel et la fabulation sophistiquée reste très floue », a-t-il mis en garde. « Nous sommes quelque part entre le plausible et le non prouvé. »

Une meilleure interprétabilité sous conditions

« Nous entrons dans une ère où l'outil de débogage le plus puissant pourrait bien être une véritable conversation avec le modèle au sujet de sa propre connaissance », a fait remarquer M. Mayham. Si c’était le cas, ce serait un « gain de productivité majeur » car cela permettrait de réduire le travail d'interprétabilité, c’est-à-dire de compréhension et d’explication des processus de prise de décision qui alimentent les modèles d’IA, de plusieurs jours à quelques minutes. Cependant, le risque réside dans le problème de l'« expert menteur ». En effet, un modèle ayant une connaissance approfondie de ses états internes peut également apprendre quels sont les états internes préférés des humains. Le pire scénario serait un modèle qui apprendrait à rapporter ou à cacher de manière sélective son raisonnement interne.

« Cela nécessite une surveillance continue des capacités, et ce dès maintenant, pas à terme », a recommandé l'analyste. Ces capacités n'apparaissent pas de manière linéaire, elles connaissent des pics. Un modèle qui s'est avéré sûr lors des tests d'aujourd'hui peut ne plus l'être six semaines plus tard. La surveillance permet d'éviter les surprises. Wyatt Mayham conseille de mettre en place une pile de surveillance avec les composants suivants :

-Comportemental : des invites périodiques peuvent forcer le modèle à expliquer son raisonnement sur des benchmarks connus ;

-Activation : des sondes qui suivent les modèles d'activation associés à des modes de raisonnement spécifiques ;

-Intervention causale : des tests de pilotage qui mesurent l'honnêteté des états internes.