Un petit texte supprimé, mais qui en dit long. OpenAI a en effet effacé la référence à l'utilisation de sa technologie d'IA ou de ses grands modèles de langage à des fins militaires. Avant cette modification intervenue le 10 janvier, la politique d’OpenAI interdisait spécifiquement l'utilisation de ses modèles pour le développement d'armes, la guerre et l'armée, ainsi que les contenus qui promeuvent, encouragent ou décrivent des actes d'automutilation. OpenAI a déclaré que les politiques mises à jour résument la liste et rendent le document plus « lisible » tout en offrant des « conseils spécifiques au service ».

La liste a été condensée dans ce que l'entreprise appelle les politiques universelles ou Universal Policies, qui interdisent à quiconque d'utiliser ses services pour nuire à autrui et interdisent la réutilisation ou la distribution de tout contenu issu de ses modèles pour nuire à autrui. Alors que ce changement dans les politiques est interprété comme un affaiblissement progressif de la position de l'entreprise dans sa collaboration avec les entreprises de défense ou liées à l'armée, les « risques posés par les modèles IA de frontière » ont déjà été soulignés par plusieurs experts, dont le CEO d'OpenAI, Sam Altman.

Mise en évidence des risques posés par l'IA

En mai dernier, des centaines de dirigeants de l'industrie IT, des universitaires et d'autres personnalités ont signé une lettre ouverte mettant en garde contre le risque d'extinction lié à l'évolution de l'IA, affirmant que le contrôle de cette technologie devait être une priorité mondiale absolue. « L'atténuation du risque d'extinction lié à l'IA devrait être une priorité mondiale au même titre que d'autres risques sociétaux comme les pandémies et les guerres nucléaires », peut-on lire dans la déclaration publiée par le Center for AI Safety, dont le siège est à San Francisco. Paradoxalement, les signataires les plus importants de la lettre sont Sam Altman et le CTO de Microsoft, Kevin Scott. Des dirigeants, des ingénieurs et des scientifiques du laboratoire de recherche en IA de Google, DeepMind, ont également signé le document. La première lettre contre l'utilisation de l'IA remonte au mois de mars, dans laquelle plus de 1100 personnalités du monde de l’IT ont mis en garde les laboratoires qui réalisent des expériences à grande échelle avec l'IA.

En octobre, OpenAI a déclaré qu'elle préparait une équipe pour empêcher ce que l'entreprise appelle les modèles IA « boundaries (tampons) » de déclencher une guerre nucléaire et d'autres menaces. « Nous pensons que les modèles IA de tampon, qui dépasseront les capacités actuellement présentes dans les modèles existants les plus avancés, peuvent profiter à l'ensemble de l'humanité. Mais ils posent aussi des risques de plus en plus graves », a déclaré l'entreprise dans un billet de blog. En 2017, un groupe international d'experts en IA et en robotique a signé une lettre ouverte aux Nations Unies pour mettre fin à l'utilisation d'armes autonomes qui menacent une « troisième révolution dans les affaires militaires ». Toujours très paradoxalement, Elon Musk, qui a créé une entreprise d'IA baptisée X.AI, pour concurrencer OpenAI, figurait parmi ces experts.

Les récentes recherches d'Anthropic inquiètent

D’autres raisons devraient nous inquiéter davantage. Certains chercheurs affirment que les modèles d'IA dits « diaboliques » ou « mauvais » ne peuvent pas être réduits ou entraînés à devenir « bons » avec les techniques existantes. Un document de recherche, dirigé par Anthropic, qui a voulu savoir s'il était possible d'enseigner à un système d'IA un comportement mensonger ou une stratégie fallacieuse, a montré que l’on pouvait rendre ce genre de comportement persistant. « Nous constatons qu'un tel comportement peut être rendu persistant, de sorte qu'il n'est pas éliminé par les techniques courantes d’entraînement à la sécurité, y compris le réglage fin supervisé, l'apprentissage par renforcement et la formation contradictoire (susciter un comportement dangereux et s'entraîner à l'éliminer) », ont écrit les chercheurs.

« Nos résultats suggèrent qu'une fois qu'un modèle présente un comportement trompeur, les techniques courantes pourraient ne pas réussir à éliminer cette tromperie et à créer une fausse impression de sécurité », ont-ils ajouté. Selon les chercheurs, ce qui est encore plus inquiétant, c'est que « l'utilisation d'un entrainement contradictoire pour mettre fin au comportement trompeur des modèles peut leur apprendre à mieux reconnaître le déclencheur de leur porte dérobée, et de dissimuler ainsi efficacement un comportement dangereux ».