Des vidéos virales de Tesla, où l’on peut voir son robot humanoïde Optimus servir des boissons à des invités, donnent un aperçu de ce que pourra apporter dans le monde réel cette future innovation de l'IA appelée LLM de type world model ou modèle du monde. Ces derniers, que certains appellent également modèles de langage vidéo, constituent la nouvelle frontière de l'IA, suivant les traces de l'emblématique ChatGPT et, plus récemment, des agents IA. Comparée à la technologie IA actuelle qui a essentiellement un impact sur les résultats numériques, les LLM modèle du monde permettront à l'IA d'améliorer les résultats physiques. En effet, ces modèles sont conçus pour aider les robots à comprendre le monde physique qui les entoure, et à suivre, identifier et mémoriser ainsi des objets. Par exemple, grâce à ces modèles, les robots humanoïdes seront plus efficaces pour se déplacer et servir aux clients leurs boissons personnalisées. Par ailleurs, tout comme les humains qui planifient leur avenir, ces robots pourront, grâce à ces modèles, déterminer ce qui se passera ensuite et planifier leurs actions en conséquence. « Si l'on repense à la manière dont l'IA générative a vu le jour… la différence avec les modèles du monde est qu'elle doit savoir ce qui est réellement possible », a expliqué TJ Galda, directeur principal de la gestion des produits pour le modèle de monde Cosmos, chez Nvidia.
Au-delà de la robotique, les modèles du monde simulent des scénarios réels. Ils pourraient être utilisés pour améliorer les dispositifs de sécurité des voitures autonomes ou simuler un atelier d'usine afin de former les employés. « Les modèles du monde associent les expériences humaines à l'IA dans le monde réel », a déclaré pour sa part Deepak Seth, directeur analyste chez Gartner. « Cette expérience humaine et ce que nous voyons autour de nous, ce qui se passe autour de nous, font partie de ce modèle du monde, ce qui manque actuellement aux modèles de langage actuels », a ajouté M. Seth. Même si les modèles d'IA et les grands modèles de langage (LLM) actuels ne peuvent pas aller au-delà du domaine numérique, les modèles du monde rendront possible la collaboration entre les humains et l'IA dans le monde physique. (Selon Nvidia, qui cite une récente étude de Morgan Stanley, la population de robots humanoïdes pourrait atteindre 1 milliard d'ici à 2050.) Outre le modèle du monde Cosmos de Nvidia, DeepMind de Google a développé un modèle du monde appelé Genie 3. Les modèles mdu monde utilisent des mathématiques complexes et des simulations physiques pour aider les robots à comprendre, anticiper et planifier des actions dans le monde réel, par exemple se déplacer dans une pièce ou remplir un lave-vaisselle.
Décrire le monde physique
Des caméras et des capteurs fournissent aux robots des informations visuelles et physiques brutes sur leur environnement. Les modèles du monde peuvent ensuite s'intégrer à des systèmes multimodaux pour interpréter des commandes visuelles ou basées sur des images avant qu'ils se mettent au travail. « Dans le domaine de l'IA physique, ce modèle devrait capturer la géométrie visuelle 3D et les lois physiques (gravité, friction, collisions, etc.) impliquées dans l'interaction avec tous types d'objets dans des environnements arbitraires », a précisé Kenny Siebert, ingénieur en recherche IA chez Standard Bots. Les modèles du monde aident ensuite les robots à comprendre et à évaluer les conséquences des actions qu'ils pourraient entreprendre. Certains modèles du monde génèrent de courtes simulations vidéo des résultats possibles à chaque étape, ce qui aide les robots à choisir la meilleure action. « La différence avec les modèles du monde est qu'il ne suffit pas de prédire les mots sur un panneau ou les pixels qui pourraient apparaître ensuite, mais qu'il faut réellement comprendre ce qui pourrait se passer », a ajouté M. Galda. Par exemple, un robot pourrait lire des panneaux comme « stop » ou « zone dangereuse » dans une usine ou sur la route et comprendre qu'il doit être extrêmement prudent pour avancer. « Si l’on construit une voiture, un robot ou tout autre objet qui doit intégrer l'IA dans l'espace physique parmi des gens, il faut être absolument certain que le robot est sûr et qu’il comprenne ce qu'il va faire », a souligné M. Galda.
Selon Kenny Siebert, ingénieur en recherche sur l'IA chez Standard Bots, « les modèles du monde sont l'un des nombreux outils qui seront utilisés pour déployer des robots dans le monde réel, et ils continueront à s'améliorer ». Mais ces modèles souffrent des mêmes problèmes d’hallucinations et de dégradation que ceux qui affectent des programmes comme ChatGPT et les générateurs de vidéos. Transposer ces hallucinations dans le monde physique pourrait causer des dommages, c'est la raison pour laquelle les chercheurs cherchent à résoudre ce genre de problèmes. Un nouveau modèle du monde général dénommé PAN aide les robots à mener des « expériences de pensée » et à tester davantage de séquences d'actions dans une simulation sûre et contrôlée. Le modèle PAN construit une mémoire interne et maintient un certain niveau de cohérence dans la manière dont les scènes doivent évoluer. La robotique n'est pas le seul domaine d'application du PAN, qui a été créé par des chercheurs de l'université Mohamed bin Zayed d'Intelligence artificielle. Il pourrait également être utilisé dans la conduite autonome, les simulations de sécurité et les simulations longues en monde réel qui « prédisent et raisonnent sur la manière dont le monde évolue en réponse à des actions », ont déclaré les chercheurs dans l'article sur PAN.
Assurer la cohérence
PAN s'inspire du comportement humain pour d'abord imaginer, puis visualiser, puis planifier des actions, en s'efforçant de comprendre la cause et l'effet d'une action avant de voir à quoi elle ressemble dans une vidéo. Les actions typiques utilisent des images visuelles et du langage naturel. PAN génère ensuite des simulations vidéo plus longues et plus cohérentes et il est conçu de manière à ce que les scènes simulées restent cohérentes dans le temps plutôt que de dériver vers des résultats irréalistes. A contrario, les modèles actuels de génération vidéo ne suivent pas les relations de cause à effet et ne restent pas stables dans le temps et dans leur structure. Ils perdent leur cohérence sur les longues séquences simulées. « Les modèles de génération vidéo existants produisent généralement des segments vidéo uniques et non interactifs », ont indiqué les chercheurs dans leur article. Parmi les modèles de génération vidéo, on peut citer Veo-3 de Google et Sora d'OpenAI, que l’entreprise considère comme un « simulateur mondial ». « En revanche, PAN montre une capacité supérieure à simuler avec précision l'évolution du monde axée sur l'action » par rapport à d'autres générateurs vidéo et modèles mondiaux open source », ont ajouté les chercheurs. Les principales avancées de PAN comprennent une capacité de prédiction latente générative (Generative Latent Prediction, GLP), qui permet au modèle d'imaginer et de visualiser des états futurs. Les améliorations structurelles, que les chercheurs appellent Causal Swin-DPM, permettent de maintenir la cohérence des vidéos dans le temps, tout en réduisant le bruit et l'incertitude. « Les modèles mdu monde ne feront que s'améliorer avec le temps », a affirmé M. Siebert de Standard Bots. « Nous voyons plusieurs cas d'usage potentiels, notamment l'évaluation dans la simulation, la génération de données d'entraînement à long terme et la distillation vers des modèles plus petits soumis à des contraintes matérielles. À mesure que les modèles du monde progressent, la liste des cas d’usage s'allongera au-delà de ce que l’on peut prévoir aujourd'hui. »