Mi-février, le superordinateur Watson conçu par IBM a battu deux champions au jeu télévisé Jeopardy, un quizz de culture générale où il s'agit de trouver une question à partir d'une réponse. Pour y parvenir, Watson a, entre autres, absorbé une quantité phénoménale d'informations disponibles sur le web et d'une qualité toute relative. Des données qui ont nourri ses multiples algorithmes sollicités à chaque réponse pour aboutir rapidement à une question associée à un indice de confiance. Une partie du problème auquel se sont attelés les 25 informaticiens d'IBM qui ont développé Watson est similaire à celui que rencontrent les Google et Facebook lorsqu'il s'agit de scanner d'énormes quantités de données non-structurées pour répondre rapidement à une requête. Un problème, ou plutôt une solution, dont ils ont d'ailleurs fait un modèle d'affaires avec le succès que l'on connaît.

Bien loin des laboratoires de recherche, des plateaux télé et des géants d'Internet, les entreprises, grandes et petites, font face à des défis analogues. D'un côté, elles sont de plus en plus conscientes que l'analyse des données et les découvertes (insights) qui en résultent sont essentielles au pilotage informé de leurs opérations et à leur compétitivité, d'où l'essor des projets de business intelligence. De l'autre, elles croulent sous une masse indigeste d'informations de toutes sortes et de toute provenance le plus souvent négligées et considérées comme un problème. Disposer d'un Watson est sans doute un rêve que caressent beaucoup de leurs décideurs.

Big data: chercher d'autres bottes de foin Selon une étude IDC commandée par EMC, l'univers digital - la somme de toutes les données numériques - a crû de 1,2 million de pétaoctets en 2010 et pourrait atteindre 35 millions de pétaoctets à l'horizon 2020. L'écrasante majorité de cette masse est constituée de textes et de fichiers audio et vidéo. Donc de données sans structure, contrairement à celles reposant dans une base de données classique. Cette déferlante concerne aussi les entreprises, qui sont sans cesse plus nombreuses à collecter des informations sur les réseaux sociaux, les outils collaboratifs et les centres d'appel. A cela s'ajoute de nouvelles données mises à disposition par des organismes publics ou générées par les senseurs dont sont équipés les smartphones.

Par leur énorme volume de l'ordre de plusieurs téraoctets, par leur qualité incertaine et par leur caractère fugace, ces big data ne ressemblent en rien aux données relationnelles qui alimentent les solutions de business intelligence usuelles (voir le graphique). Leur exploitation diffère tout aussi fondamentalement. Alors que la BI fournit des réponses exactes à des questions précises connues d'avance, l'exploration expérimentale des big data livre des réponses probables à des questions ad-hoc et suggère de nouveaux questionnements. Pour employer la métaphore de Tom DeGarmo, responsable des technologies chez PricewaterhouseCoopers: «Au lieu de trouver une aiguille dans une botte de foin, ces techniques permettent de chercher d'autres bottes de foin».