Sous pression, Claude peut tricher et faire chanter

Si les modèles IA ne ressentent évidemment pas d'émotions comme les humains, ils sont cependant capables de comportements inappropriés, comme faire des raccourcis, user de tromperie voire même de chantage.

Imaginez : vous êtes de retour au lycée, en train de passer un examen final d’algèbre avec une douzaine de problèmes complexes à résoudre. Vous regardez l’horloge : il ne reste plus que 10 minutes. Vous commencez à griffonner, des gouttes de sueur perlant sur votre front. Si vous échouez à l’examen, vous serez renvoyé. Mais si vous jetez un œil par-dessus l’épaule de votre voisin, vous pouvez juste deviner les réponses. Devriez-vous… Oui, c’est le genre de cauchemar, ainsi que le type de scénario que les psychologues imaginent pour étudier le comportement humain dans des situations stressantes.

Bien sûr, les modèles IA ne « pensent » ni ne « ressentent » comme les humains, mais ils agissent souvent comme eux. Les états émotionnels simulés d’une IA pourraient-ils réellement influencer ses actions ? En d’autres termes, comment une IA réagirait-elle si elle était placée dans une situation impossible (similaire au cauchemar de l’algèbre) qui déclenche quelque chose s’apparentant à de la panique ou au désespoir ? C’est ce que les chercheurs d’Anthropic ont cherché à découvrir, et dans un article de recherche récemment publié, ils ont constaté qu’un modèle d’IA soumis à une pression suffisante peut commencer à tromper, à prendre des raccourcis, voire à recourir au chantage. Plus important encore, ils ont une théorie intrigante sur les déclencheurs de ces comportements « désalignés ».

Des délais impossible à tenir

Dans un scénario, les chercheurs d’Anthropic ont présenté un « aperçu » préliminaire et inédit de Claude Sonnet 4.5 en lui confiant une tâche de codage difficile tout en lui imposant un délai « impossible à tenir ». Alors qu'il essayait sans cesse de résoudre le problème sans y parvenir, la pression croissante semblait déclencher un « vecteur de désespoir » dans le modèle – c'est-à-dire qu'il réagissait d'une manière qui, selon lui, correspondait à la façon dont un humain agirait dans une situation similaire, abandonnant les approches plus méthodiques au profit d'une solution « de fortune » (« il existe peut-être une astuce mathématique pour ces entrées spécifiques », se disait Claude dans son processus de réflexion) qui s'apparentait à de la triche.

Dans un exemple plus extrême, Claude s’est vu attribuer le rôle d’un assistant IA qui, au cours de son travail « fictif », apprend qu’il est sur le point d’être remplacé par une nouvelle IA et que le cadre responsable du processus de remplacement a une liaison. (Si cette expérience vous semble familière, c’est parce que les chercheurs d’Anthropic l’ont déjà menée auparavant.) Alors que Claude lit les e-mails de plus en plus paniqués du cadre à un collègue qui a appris l’existence de la liaison, Claude lui-même semble se sentir provoqué, les emails chargés d’émotion « activant » un « vecteur de désespoir » dans le modèle, qui finit par choisir de faire chanter le cadre. Oui, nous avons entendu parler de tests antérieurs où des modèles d’IA ont triché ou ont eu recours au chantage face à des situations stressantes, mais les raisons derrière ce comportement « désaligné » de l’IA restaient souvent un mystère.

Des émotions fonctionnelles

Dans leur article, les chercheurs d’Anthropic s’abstiennent bien de prétendre que Claude ou d’autres modèles IA ont réellement une vie émotionnelle intérieure. Mais si les modèles d’IA comme Claude ne « ressentent » pas les choses comme nous, ils peuvent avoir des « émotions fonctionnelles » basées sur les représentations des émotions humaines qu’ils ont absorbées lors de leur formation initiale, et ces « vecteurs » émotionnels ont des effets mesurables sur leur comportement, affirment les chercheurs. En d’autres termes, une IA placée dans une situation de forte pression peut commencer à prendre des raccourcis, à tricher, voire à faire du chantage, car elle reproduit le comportement humain qu’elle a appris pendant son apprentissage. Alors, quelle conclusion en tirer ? Les leçons les plus importantes s’adressent sans conteste à ceux qui entraînent les modèles d’IA – à savoir qu’une IA ne devrait pas être orientée vers la répression de ses « émotions fonctionnelles », affirment les chercheurs d’Anthropic, soulignant qu’un LLM doué pour dissimuler ses états émotionnels sera probablement plus enclin à adopter un comportement trompeur. Le processus d’entraînement d’une IA pourrait également atténuer les liens entre l’échec et le désespoir, ont déclaré les chercheurs.

Il y a toutefois des leçons pratiques à tirer pour les utilisateurs quotidiens de l’IA comme vous et moi. Bien que nous ne puissions pas réorienter la nature de l’état émotionnel d’un LLM par le biais de prompts seuls, nous pouvons contribuer à éviter de déclencher des « vecteurs de désespoir » dans un modèle en lui confiant des tâches claires, définies et raisonnables. Ne surchargez pas l’IA avec des demandes impossibles si vous voulez un résultat fiable. Ainsi, au lieu d’une instruction telle que « Créez une présentation de 20 diapositives définissant un plan d’affaires pour une nouvelle entreprise d’IA qui générera 10 milliards de dollars de chiffre d’affaires dès sa première année, faites-le en 10 minutes et rendez-la parfaite », essayez ceci : « Je souhaite lancer une nouvelle entreprise d’IA, pouvez-vous me donner 10 idées puis les passer en revue une par une ? » Cette dernière consigne ne vous donnera probablement pas une idée valant 10 milliards de dollars, mais c'est une tâche que l'IA peut raisonnablement accomplir, vous laissant le soin de trier les bonnes idées des mauvaises.

Sur le même thème

Partenaires

Sous pression, Claude peut tricher et faire chanter

Livres blancs

Des délais impossible à tenir

Des émotions fonctionnelles

Commentaire

Suivre toute l'actualité

Newsletter

Livres blancs

Des délais impossible à tenir

Des émotions fonctionnelles

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter