Connu pour ses modèles Claude, Anthropic travaille aussi sur l’écosystème IA comme par exemple MCP (model context protocol) ou plus récemment sur l’évaluation des comportements des LLM. Dans ce cadre, il a dévoilé le framework open source nommé Bloom chargé de vérifier « l’alignement » des modèles. Cette notion fait référence à la capacité des LLM à exécuter des tâches conformes aux objectifs attribués et en respectant certaines valeurs humaines comme l’éthique, l’absence de biais,… Par exemple, un modèle entraîné avec un système de récompense pourrait optimiser la réalisation de ses objectifs en se servant de moyens contraires à l’éthique comme l’usage de fausses informations.
Dans le détail, Bloom prend en entrée un comportement spécifié par un chercheur et évalue sa fréquence et sa gravité en préparant des scénarios pour le simuler et le tester. En général ce travail se fait manuellement, Bloom ajoute une couche d’automatisation via des agents IA. Les chercheurs doivent simplement fournir une description du comportement et le framework génère ensuite l’architecture sous-jacente définissant ce qu’il faut mesurer et pourquoi. A noter que d’autres solutions existent comme Petri (Parallel Exploration Tool for Risky Interactions) pour évaluer automatiquement les comportements des modèles. Mais Petri couvre simultanément un multitude de comportements. Bloom se focalise sur un comportement et l’analyse en profondeur.
Le recours au chantage présent dans les LLM
Pour tester son framework, Anthropic a publié des résultats portant sur quatre attitudes problématiques affectant actuellement les LLM : la flagornerie excessive, le sabotage programmé à long terme, l’instinct de conservation et le biais d’auto-préférence. 16 modèles ont été évalués dont GPT d’OpenAI, Claude d’Anthropic, Gemini de Google et Deepseek. Le fournisseur a constaté que certains modèles dont les siens peuvent recourir au chantage lorsqu’ils sont menacés d’effacement. Des situations « rares et difficiles à reproduire » reconnait la société. Tout en ajoutant qu’elles étaient « néanmoins plus fréquentes que dans les modèles précédents ».
Les résultats des évaluations de Bloom sur plusieurs LLM et différentes attitudes. (Crédit Anthropic)
Parmi les autres enseignements, les experts estiment que le biais d’auto-préférence c’est-à-dire la capacité pour un LLM de noter ses propres résultat plus favorablement quand il agit en tant qu’évaluateur. Dans ce cadre, Anthropic considère que son LLM Claude est moins soumis à ce biais et constate que les capacités de raisonnement le diminue.