Meta a entraîné un agent IA à jouer à un jeu de société impliquant une interaction avec d'autres joueurs pour les persuader de soutenir ses stratégies, pour finalement les trahir. Dans un billet de blog publié par l'entreprise, qui possède Facebook, Instagram et WhatsApp, Meta affirme que son IA nommée Cicero pourrait avoir dans un avenir proche des applications étendues, notamment le développement d'assistants virtuels plus évolués grâce à l'utilisation combinée de technologies comme le traitement du langage naturel (NLP) et le raisonnement stratégique.

Dans un article de recherche publié dans la revue universitaire Science, Meta indique que son IA Cicero a atteint des performances de niveau humain au jeu de simulation historique et de négociation Diplomacy (ou Diplo). Dans une compétition en ligne où elle a joué 40 parties contre 82 humains, l’IA Cicero s’est classée dans les 10 % des meilleurs participants ayant joué plus d'une partie. Diplo oppose sept joueurs qui contrôlent chacun les forces militaires de sept « grandes puissances », l’objectif étant de parvenir à contrôler plus de la moitié du continent européen élargi au Maghreb et au nord du Proche-Orient. Chaque tour commence par une négociation entre joueurs pour obtenir le soutien de leurs plans et par un déplacement coordonné des forces militaires des joueurs ayant conclu des alliances. Sans le soutien des autres joueurs, beaucoup de ces campagnes échoueront.

« Le jeu a mis l’agent d’IA devant un défi, car pour gagner, il devait comprendre si ses adversaires bluffaient ou élaboraient une certaine stratégie pour gagner la partie. L'IA a dû faire preuve d'un certain niveau d'empathie pendant le jeu afin de collaborer avec les autres joueurs, ce qui n'était pas le cas jusqu'à présent dans des jeux comme les échecs où l’IA affronte des adversaires humains. Depuis qu’ils existent, les agents d'IA se sont améliorés dans les jeux de stratégie : En 1997, le logiciel Deep Blue d'IBM a battu le champion du monde d'échecs Gary Kasparov, et en 2016, AlphaGo de DeepMind a battu le meilleur joueur de Go Lee Sedol. Facebook a également développé un autre moteur d'IA capable de dépasser les humains au poker.

Raisonnement stratégique

Cicero s'appuie sur deux composantes technologiques principales : le raisonnement stratégique et le traitement du langage naturel (NLP). « Alors que le moteur de raisonnement stratégique prédit les mouvements des autres joueurs et utilise ces informations pour élaborer sa propre stratégie, le moteur de traitement du langage naturel génère des messages et analyse les réponses dans les conversations avec les autres joueurs pour négocier et parvenir à un accord », expliquent les chercheurs. Afin d'aider l'agent d'IA à générer des conversations pertinentes, les chercheurs ont commencé par un modèle de génération de langage naturel de 2,7 milliards de paramètres pré-entraîné sur des textes provenant d'Internet et l'ont affiné avec des conversations entre des joueurs humains dans plus de 40 000 sessions de jeu provenant de webDiplomacy.net.

« Nous avons développé des techniques pour annoter automatiquement les messages dans les données d'entraînement avec les déplacements correspondants prévus dans le jeu, de sorte qu'au moment de l'inférence, nous pouvons contrôler la génération de dialogue pour discuter des actions spécifiques souhaitées pour l'agent et ses partenaires de conversation », ont déclaré les chercheurs dans un billet de blog plus détaillé. Meta a mis en libre accès le code de Cicero afin que d'autres chercheurs puissent exploiter les capacités de son agent d'IA. En outre, l'entreprise a créé un portail pour susciter des propositions de recherche dans le domaine de la coopération entre l'homme et l'intelligence artificielle par le biais de la PNL en utilisant la diplomatie comme concept de base.

Plans à long terme

Les grandes entreprises technologiques, comme Microsoft, Google et Amazon, se livrent une course contre la montre pour développer des assistants virtuels indépendants plus évolués afin de prendre en charge divers cas d’usage métiers, depuis les centres d'appels jusqu’aux agents d'IA capables d'analyser les sentiments et d'enseigner de nouvelles compétences à une personne. Selon un rapport de Fortune Business Insights, le marché mondial du traitement du langage naturel (NLP), qui comprend de tels assistants, devrait passer de 26,4 milliards de dollars en 2022 à 161,8 milliards de dollars en 2029. D’après ce qu’ils ont déclaré dans un billet de blog, les chercheurs de Meta ont l’air de penser que le succès de Cicero dans Diplo dépasse les capacités des autres assistants virtuels disponibles aujourd'hui. « Par exemple, les assistants IA actuels peuvent accomplir des tâches simples de questions-réponses, comme dire la météo, mais que se passerait-il s'ils pouvaient soutenir une conversation suffisamment longue pour enseigner une nouvelle compétence à leur interlocuteur ? »

Dans leur remarque, les chercheurs font référence à des outils comme Google Duplex, Amazon Alexa, Xiaoice de Microsoft et Siri d'Apple. Mais Cicero n'est pas fait non plus pour les longues conversations, car son raisonnement est strictement à court terme. Comme l'expliquent les chercheurs de Meta dans leur article paru dans Science, « d'un point de vue stratégique, Cicero raisonne sur le dialogue uniquement en termes d'actions des joueurs pour le tour en cours. Il n'a pas modélisé la façon dont son dialogue pourrait affecter la relation avec les autres joueurs sur toute une partie ».