Sinequa, l'institut Eurecom, Wikio (un des derniers projets de Pierre Chappaz) et le LIA (Laboratoire informatique d'Avignon) ont entamé des travaux exploratoires sur un vaste projet de recherche documentaire. Baptisé RPM2, pour résumé plurimedia, multimedia et multi-opinions, l'initiative vise à apporter aux utilisateurs un ensemble synthétique des informations de tout format. Le projet, financé à 50% par l'ANR (Agence nationale de la recherche) et 50% par Sinequa, doit déboucher sur la mise au point de méthodes de résumés automatiques multi-documents mêlant le texte, l'audio et la vidéo et permettant des classifications selon les opinions exprimées dans les divers documents. « L'idée est de cataloguer tous les documents et de les présenter de façon synthétique. On pourrait par exemple avoir pour une requête simple comme 'Ségolène Royal', une vidéo, un résumé d'articles, un dessin et un résumé de ses discours [issu de fichiers sonores, ndlr], raconte Gaëlle Recourcé, responsable des Sinequa Labs. C'est un résumé multimédia qui s'enrichit mutuellement. » Une savante alchimie que l'on doit à la collaboration des technologies d'analyse de l'image et vidéo de l'institut Eurecom et celles de traitement automatique de la parole et de résumé multi-documents de LIA. Si l'indexation repose sur la transcription, la création de résumés tient en des techniques plus évoluées. Pour le résumé, on peut par exemple créer un chapitrage des flux de données pour distinguer des parties, ou extraire les moments forts d'une vidéo. « Quand on analyse un match de foot, on est capable de repérer lorsqu'un but est marqué », commente Gaëlle Recourcé. Autant de techniques utilisées par l'Institut Eurecom. Restait à régler la partie analyse des émotions afin d'intégrer, à l'ensemble, une prise en compte de l'opinion ou des sentiments transmis dans le document analysé. Cette partie incombe au LIA, spécialisé dans le traitement de la parole. Les laboratoires d'Avignon opèrent une différenciation intelligente des résultats en fonction du traitement d'une seule et même source afin d'en dégager des opinions différentes. « Il s'agit de voir la différence linguistique de deux sources et de présenter deux facettes de l'information. » « Les résultats obtenus seront un atout décisif pour notre solution d'Enterprise Search Sinequa CS » ajoute Jean Ferré, président de Sinequa. Les premiers résultats devraient être livrés à l'automne.