Marco n’est pas à court d’idées. Ce jeu de données proposé gratuitement par Microsoft réunit 100 000 questions et réponses qui peuvent être utilisées par les chercheurs en intelligence artificielle pour mettre au point des systèmes capables de parler (presque) aussi bien que des humains. Marco tire son nom - Machine Reading COmprehension - de l’objectif visé : apprendre à lire à des machines. Il est basé sur des données réelles qui ont été anonymisées. Il existe déjà dans ce domaine d’autres jeux de données (dont certains déjà livrés par Microsoft) parmi lesquels choisir pour tester ses développements, ainsi que le résumait il y a quelques mois le billet d’un chercheur de Maluuba, un éditeur spécialisé dans l’IA.

Pour l’instant, les systèmes capables de répondre à des questions sophistiquées n’en sont qu’à leurs tout débuts, souligne Rangan Majumder, l’un des managers de la division de Microsoft consacrée aux technologies de recherche. Les moteurs et les assistants virtuels (tels que Bing et Cortana) peuvent répondre qu’à des questions de base mais la plupart du temps, ils ne font que pointer vers les résultats des recherches effectuées sur le web. Pour aller plus loin dans l’automatisation des échanges avec l’utilisateur, il faut apprendre aux systèmes à reconnaître les questions et à formuler des réponses, ou même à comprendre une question qui ne s’est pas encore présentée, rappelle l’éditeur de Redmond. D’où l’intérêt du jeu de données réalistes anonymisées Marco. Celui-ci provient de requêtes ayant transité par Bing et Cortana qui ont été choisies en fonction de l’intérêt qu’elles peuvent présenter pour les chercheurs, tandis que les réponses ont été rédigées par les équipes à partir de contenus web dont l’exactitude a été vérifiée, explique Microsoft dans son billet. Cela prend donc en compte la complexité de certaines questions qui peuvent avoir plusieurs réponses.

Un problème qui demande la collaboration d'autres chercheurs

Selon Li Deng, l’un des responsables du centre de technologie Deep Learning de Microsoft, Marco va faciliter la tâche des chercheurs qui travaillent sur les nouvelles générations de modèle deep learning, ces derniers cherchant d’abord à comprendre les questions avant d’y répondre. L’objectif est de pourvoir augmenter les possibilités d’apporter des réponses plus justes et efficaces aux questions complexes que posent les utilisateurs. Mais on en est encore loin. On peut télécharger l’article de recherche publié sur le sujet par l’équipe de Microsoft. 

Ce n’est pas un problème qui peut être résolu par une seule entreprise, pointe Rangan Majumder. C’est la raison pour laquelle son équipe a communiqué le jeu de données qu’elle a élaboré, comme cela a déjà été fait dans d’autres domaines de l’IA comme la reconnaissance d’images, avec des bases de données comme ImageNet. La semaine dernière, l’éditeur de Redmond avait par ailleurs dévoilé son service cloud QnA Maker conçu pour faciliter l’élaboration de bots capables de répondre aux questions des utilisateurs.