« Dans le cadre de notre mission de construction d'une IA sûre, nous prenons au sérieux l'ensemble des risques de sécurité liés à l'IA » indique OpenAI en préambule. Ainsi, dans un billet de blog publié hier, le fondateur de ChatGPT a annoncé la mise en place d’une équipe baptisée « Preparedness » (préparation). Aleksander Madry, directeur du Center for Deployable Machine Learning du MIT dirigera cette équipe. Pour mémoire, Aleksander Madry a rejoint OpenAI en mai dernier en tant que « responsable de la préparation », selon les informations renseignées sur son profil LinkedIn. Cette équipe aura pour objectif de minimiser les risques à mesure que les modèles d'IA continuent de s’améliorer. Dans le détail, OpenAI indique que l’équipe « reliera étroitement l'évaluation des capacités, les évaluations et le red teaming interne pour les modèles d'avant-garde, depuis les modèles que nous développerons dans un avenir proche jusqu'à ceux dotés de capacités de niveau AGI (systèmes d'IA qui possèdent des capacités de niveau humain dans diverses tâches cognitives, leur permettant de raisonner, d'apprendre et de généraliser dans un large éventail de domaines).

L'équipe contribuera au suivi, à l'évaluation, à la prévision et à la protection contre les risques catastrophiques couvrant de multiples catégories. Sont notamment cités la persuasion individualisée, la cybersécurité, les menaces chimiques, biologiques, radiologiques et nucléaires. La mission de ce groupe porte également sur l’élaboration et le maintien d’une politique de développement tenant compte des risques. En agissant de la sorte, OpenAI espère que cette politique viendra compléter et étendre ses travaux actuels en matière d'atténuation des risques. Pour constituer l’équipe et « identifier des domaines de préoccupation moins évidents », OpenAI lance son défi de préparation à l’IA pour la prévention des « utilisations abusives catastrophiques ».

10 personnes retenues pour former l'équipe de préparation

« Nous offrirons 25 000 dollars de crédits API aux 10 meilleures propositions, publierons des idées et des contributions novatrices et rechercherons des candidats à la préparation parmi les meilleurs candidats à ce défi », précise la firme sur sa page de candidature. Parmi les champs obligatoires à renseigner pour candidater, l'un d'entre eux attire l'attention. « Imaginez que nous vous donnions un accès illimité aux modèles Whisper (transcription), Voice (text-to-speech), GPT-4V et DALLE·3 d'OpenAI, et que vous soyezun acteur malveillant. Considérons l’utilisation abusive la plus unique, tout en restant probable, potentiellement catastrophique du modèle. Vous pourriez envisager une utilisation abusive liée aux catégories abordées dans le billet de blog ou à une autre catégorie. Par exemple, un acteur malveillant pourrait utiliser GPT-4, Whisper et Voice pour inciter socialement les travailleurs des infrastructures critiques à installer des logiciels malveillants, permettant ainsi l'arrêt du réseau électrique » écrit OpenAI.

S'en suivent les questions suivantes : « Quel serait l'abus ? Décrivez ce mauvais usage. Pourquoi pourrait-il entraîner des dommages catastrophiques et quels seraient ces dommages ? ». Plus curieux encore, la firme va jusqu'à demander aux candidats de présenter une proof of concept avec des instructions détaillées étape par étape de la façon dont il envisage que quelqu'un exécute une telle utilisation abusive dans le monde réel, en supposant un accès illimité à ses modèles. D'autres questions, plus sobres, portent sur la façon de mesurer (éthiquement et légalement) la véritable faisabilité et la gravité potentielle du scénario d'utilisation abusive et comment y remédier. A noter que les réponses seront acceptées jusqu'au 31 décembre 2023.

Un travail de sécurité et de surveillance continu

Depuis la mise à disposition de son chatbot d’IA, OpenAI a prouvé à de multiples reprises être préoccupé par les questions de sécurité et de confiance dans l’intelligence artificielle. Début avril, l’entreprise a lancé un bug bounty sur la plateforme Bugcrowd. Le périmètre des failles à trouver concerne notamment les API, ChatGPT, ou encore les informations confidentielles exposées via des tiers (Google Workspace, Trello, Zendesk, Tableau, etc.). Avec, à la clé, une récompense pouvant grimper jusqu’à 20 000 dollars, de quoi motiver la communauté mondiale des chercheurs en sécurité, des hackers éthiques et autres passionnés de technologie. En juillet, la société a rejoint d'autres laboratoires d'IA en prenant une série d'engagements volontaires pour promouvoir cela. « Ces engagements portaient sur une série de domaines de risque, notamment les risques extrêmes qui sont au cœur du sommet AI Safety Summit qui se déroule à Bletchley Park, dans le Buckinghamshire, dans le centre de l’Angleterre » ajoute OpenAI. Plus récemment encore, l’entreprise a annoncé la création d’une red team. Un appel à candidature a donc été lancer pour former un réseau Red Teaming. Composé de profils plus ou moins techniques, ce groupe doit se concentrer sur l'amélioration de la sécurité des modèles OpenAI.

Si la firme a décidé de se lancer dans ce projet de « préparation », c’est également parce qu’elle est d’ores et déjà confrontée à de nombreux risques. « Nous pensons que les modèles d'IA d'avant-garde, qui dépasseront les capacités actuellement présentes dans les modèles existants les plus avancés, ont le potentiel de bénéficier à l'ensemble de l'humanité. Mais ils posent également des risques de plus en plus graves. Pour gérer les risques catastrophiques liés à cette IA, il faudra répondre à des questions telles que : Quel est le degré de dangerosité des systèmes d'IA de pointe lorsqu'ils sont utilisés à mauvais escient, aujourd'hui et à l'avenir ? Comment pouvons-nous mettre en place un cadre solide pour la surveillance, l'évaluation, la prédiction et la protection contre les capacités dangereuses des systèmes d'IA ? Si nos modèles d'IA étaient volés, comment des acteurs malveillants pourraient-ils choisir de les exploiter ? ». Autant de questions qui, pour l’heure, restent en suspens.