La réponse de Microsoft au phénomène des « Big Data » consiste à apporter à sa base de données SQL Server et à sa plateforme Parallel Data Warehouse le support du framework Open-Source Hadoop, adapté au traitement d'importants volumes de données. Les connecteurs qu'il proposera seront disponibles sous peu sous forme de CTP (community technology preview) précise l'équipe de SQL Server dans son blog officiel.

L'expression Big Data fait référence à la multiplication des données générées par les entreprises, en particulier en provenance du trafic web et de capteurs. « Nos clients nous demandent de les aider à gérer et analyser à la fois des données structurées et non structurées, qui sont notamment stockées dans des environnements Hadoop », explique l'éditeur. Avec les connecteurs qu'il s'apprête à fournir, les clients pourront échanger des données entre ces environnements, SQL Server et Parallel Data Warehouse (PDW).

Hadoop, qui s'adosse à l'Apache Software Foundation, a été constitué par Yahoo. Il est basé en partie sur le modèle de programmation MapReduce développé par Google. Un écosystème de plus en plus étendu s'est développé autour d'Hadoop, comportant des acteurs tels que Cloudera, pour offrir des services et des distributions spécialisées du Framework.

Pas de feuille de route à long terme

La démarche de Microsoft est logique, dans la mesure où des fournisseurs de datawarehouse tels qu'EMC (avec Greenplum) et Teradata ont déjà adopté Hadoop, rappelle James Kobielus, analyste de Forrester Research. De plus en plus d'entreprises exploitent des clusters Hadoop et veulent être capables d'envoyer des données de ces systèmes vers leurs datawarehouses, ajoute-t-il. Mais, selon lui, aucun fournisseur ne peut prétendre avoir construit une offre Hadoop complète qui inclurait des distributions, des connecteurs vers des projets liés à Hadoop tels que la base de données Cassandra, des outils de modélisation et d'autres composantes. Il est évident qu'à l'instar des autres acteurs, Microsoft a des projets très sérieux pour Hadoop, reconnaît James Kobelius en soulignant toutefois que, pour l'instant, il n'avait pas encore communiqué de feuille de route à long terme.

Microsoft n'adopte pas Hadoop au détriment de ses propres développements. Il a par exemple livré récemment le projet Daytona, un modèle de programmation basé sur MapReduce à utiliser sur son cloud Azure.

Cette semaine, la société de Steve Ballmer a également annoncé qu'il avait livré une deuxième mise à jour pour Parallel Data Warehouse. Celle-ci combine de nouvelles fonctionnalités, à la fois du côté du matériel et du logiciel. Cela inclut des connecteurs supplémentaires pour des éditeurs d'outils de BI (Business Intelligence) et d'intégration de données tels que SAP, Informatica et Microstrategy. Par ailleurs, une version de PDW est maintenant disponible pour les serveurs de Dell. Les prix démarrent à moins de 12 000 dollars par téraoctet.

Illustration : projet Hadoop / Blog de l'équipe SQL Server