Anthropic révise la gouvernance de Claude

Pour renforcer les principes éthiques et de sécurité, Anthropic a révisé son cadre de gouvernance pour les modèles Claude. Il prend en compte les capacités de raisonnement des LLM et relance le débat sur la responsabilité de l'IA.

Après avoir publié en 2023 la première version de sa « Constitution », visant à encadrer la sécurité, l’éthique et l’usage du modèle, Anthropic dévoile une version révisée de son cadre de gouvernance. Désormais, Claude doit rester sous supervision humaine, éviter tout comportement nuisible, apporter une aide concrète aux utilisateurs et respecter les standards de la société. Selon l'entreprise américaine, ces principes sont intégrés à l’entraînement des modèles Claude et font partie de leur processus de raisonnement.

Une plus grande contextualisation des principes

S’inspirant à la fois de la Déclaration universelle des droits de l’homme et des conditions d’utilisation d’Apple, la première version de la « Constitution » de Claude, publiée en 2023 et longue de 2 700 mots, servait surtout de guide pratique, mais manquait de profondeur philosophique. La révision de 2026 conserve ces références tout en adoptant une approche plus conceptuelle, visant à comprendre non seulement ce qui est important, mais aussi pourquoi. Selon Anthropic, cette évolution aide Claude à contextualisation ses décisions plutôt que de se limiter à suivre des règles spécifiques : « Si nous voulons que les modèles fassent preuve de bon jugement dans un large éventail de situations inédites, ils doivent être capables de généraliser, d’appliquer des principes larges plutôt que de suivre mécaniquement des règles spécifiques. »

Le texte doit ainsi donner à Claude les moyens de dépasser une simple liste de comportements autorisés pour s’appuyer sur un raisonnement plus profond. Par exemple, au lieu de protéger les données uniquement parce qu’une règle l’exige, le LLM doit comprendre le cadre éthique dans lequel la protection de la vie privée prend tout son sens. Le document remanié contient 84 pages et 23 000 mots, conçu pour être utilisé dans l’entraînement du modèle, à la fois comme déclaration de principes et outil de formation. Anthropic précise que le texte est destiné aux versions de Claude accessibles au grand public et que certaines versions spécialisées pourraient ne pas s’y conformer entièrement. L’entreprise indique qu’elle « continuera d’évaluer » les moyens de les aligner sur les objectifs de la constitution et qu’elle fera preuve de transparence en cas d’écarts. Le texte est publié sous licence Creative Commons CC0 1.0, ce qui offre la possibilité à d’autres développeurs de l’utiliser librement.

Le débat sur la responsabilité de l'IA relancé

Cette mise à jour intervient dans un contexte de scepticisme croissant quant à la fiabilité, à l’éthique et à la sécurité des grands modèles de langage. La constitution fait une référence indirecte au débat sur une éventuelle conscience de l’IA. « Le statut moral de Claude est profondément incertain. Nous pensons que le statut moral des modèles IA est une question sérieuse qui mérite d’être examinée. Ce point de vue n’est pas propre à Anthropic : certains des philosophes les plus éminents prennent cette question très au sérieux », peut-on lire à la page 68.

Pour encadrer les interactions, Anthropic a introduit dans ses modèles les plus avancés, Claude Opus 4 et 4.1, un mécanisme d’auto-protection capable de mettre fin à une conversation si un utilisateur tente de générer des contenus illégaux ou dangereux. En parallèle, un document de recherche de la société a suggéré que ces LLM faisaient preuve d’« un certain degré » d’introspection, en raisonnant sur leurs actions passées de manière quasi humaine. Cette interprétation est contestée par Satyam Dhar, ingénieur dans la start-up Galileo, spécialisé dans l'observabilité de l'IA. « Les LLM sont des modèles statistiques, pas des entités conscientes », rappelle-t-il. « Les présenter comme des acteurs moraux détourne l’attention du véritable enjeu, à savoir la responsabilité humaine ». L’éthique de l’IA doit, selon lui, se concentrer sur les acteurs qui conçoivent, déploient, valident et utilisent ces systèmes. Une “constitution” de l’IA peut servir de contrainte de conception, mais elle ne résout pas le risque éthique sous-jacent. Aucun cadre philosophique intégré à un modèle ne peut remplacer le jugement humain, la gouvernance et la supervision », conclut-il.