Un certain engouement se manifeste autour d'Hadoop, plateforme distribuée constituée de sous-projets Open Source (gérés par l'Apache Software Foundation) qui accélère le traitement de volumes très importants de données. Hadoop inclut un système de fichiers distribués et exploite Google MapReduce, framework de développement conçu pour des calculs parallèles et distribués, à opérer sur des bases dépassant le téraoctet de données. Parmi les chefs de file des SGBD, il apparaît que Microsoft et IBM l'abordent de façon assez différente. Tandis que des éditeurs de technologies décisionnelles comme Sybase et Teradata ont adopté sans ambages Hadoop et Google MapReduce, Microsoft, lui, résiste.

« Nous n'avons jamais inséré de code Hadoop dans un de nos produits, confirme le professeur David DeWitt, de l'Université de Madison (Wisconsin), également membre des équipes techniques de Microsoft. Son manque d'intérêt n'a rien de surprenant. Expert en base de données SQL parallèles, il a co-inventé trois d'entre elles. Au printemps, il a co-signé un article qui comparait les différentes approches de l'analyse de volumes importants de données. Il y avançait que les bases de données SQL dépassaient toujours MapReduce sur la plupart des tâches. Il n'a pas changé d'avis : « De nombreux fournisseurs de base de données déclarent qu'ils exploitent Hadoop parce que ce logiciel a du succès, [...] mais les bases SQL s'en sortent toujours très bien ».

David DeWitt dirige à l'Université de Madison un laboratoire qui travaille avec la R&D de Microsoft autour de la technologie de datawarehouse (connue précédemment sous le nom de Projet Madison) qui sera intégrée à la R2 de SQL Server 2008. Selon lui, cette version de SQL Server disposera, grâce à la technologie héritée de DATAllegro, de fonctions analytiques ressemblant à certaines fonctions de MapReduce/Hadoop. Mais David DeWitt reconnaît néanmoins que sur le traitement des requêtes nécessitant un temps d'exécution important, MapReduce est meilleur que SQL. Cette aptitude pourrait amener Microsoft à essayer d'introduire ces fonctionnalités dans la future version de SQL Server orientée datawarehouse.

IBM explore les cas d'utilisation de Hadoop


IBM, l'un des principaux supporters d'Apache, est évidemment très « branché » Hadoop. Anant Jhingran, directeur technique de la division Information Management d'IBM, le reconnaît volontiers. « Je ne prétends pas qu'il constitue la réponse à tout, mais je pense qu'à terme, chaque entreprise va vouloir y recourir, même si je ne suis pas sûr de la forme que cela prendra ». Les entreprises voudront-elles intégrer Hadoop à leur base de données SQL ou dans une appliance de datawarehouse séparée, ou encore sous la forme d'un service Web s'appuyant sur Hadoop comme le fait le service expérimental M2 d'IBM ?

Pour le déterminer, IBM teste des pilotes avec une dizaine d'entreprises clientes et explore cette voie dans sa R&D, explique Anant Jhingran, sans rien vouloir dire, toutefois, sur l'éventuelle présence de fonctionnalités Hadoop dans la prochaine version de DB2 ou d'Informix. Une chose est sûre, a tout de même précisé le directeur technique : Hadoop est mieux utilisé pour des applications émergentes de type Web Analytics, détection de la fraude, ou analyse des données non structurées et semi-structurées, plutôt que pour des applications sur lesquelles les bases relationnelles ont déjà largement fait leurs preuves.