L'écosystème qui s'est constitué autour de Hadoop est ralenti par la fragmentation et les efforts doublonnés conduits sur le framework Open Source utilisé pour traiter les big data. C'est ce qu'estiment les fournisseurs de distribution Hortonworks, IBM et Pivotal qui viennent de créer l'Open Data Platform (ODP) avec SAS, Infosys, GE et neuf autres acteurs tels que Teradata, Capgemini, EMC, VMware, Altiscale et Splunk (*). « Le marché big data requiert une plate-forme de base Apache Hadoop qui soit mature, ouverte et prévisible pour faire avancer les solutions de gestion », annoncent-ils en préambule sur le site qu'ils viennent de créer.

L'objectif de l'ODP est donc d'identifier les différentes versions d'Apache Hadoop et des logiciels qui les supportent et fonctionnent ensemble comme un tout, afin de réduire les efforts des entreprises pour construire et maintenir des systèmes complexes basés sur le framework. Dans un communiqué, le CEO d'Altiscale, Raymie Stata, souligne ainsi le besoin d'un écosystème cohérent avec des solutions rigoureusement testées. L'Open Data Platform va fournir une base à partir de laquelle chaque fournisseur de produits et services pourra certifier ses solutions d'entreprise. Cette initiative de rationalisation est certainement bienvenue à un moment où certaines critiques commencent à mettre en évidence les limites du big data.

Associer plus facilement différents logiciels du marché


Le code de Hadoop est géré par la fondation Apache Software, mais les différentes versions commerciales qui en sont issues ne sont pas toutes compatibles entre elles. Les projets complémentaires à l'environnement comme Hive, Ambari et ZooKeeper ajoutent à la complexité, chacun demandant d'être intégré à Hadoop.

L'approche prise ici s'apparente à celle de la fondation Linux avec LSB (Linux Standard Base), créé pour diminuer les coûts totaux de l'OS Open Source en réduisant les différences entre les distributions et par conséquent les efforts requis pour le portage des applications entre chacune d'elles.

En établissant une bibliothèque de base commune pour Hadoop, l'alliance ODP aidera à comprendre les technologies et à déterminer quelles versions peuvent être utilisées ensemble. Les entreprises pourront ainsi intégrer et associer plus facilement des logiciels du marché vendus par différents éditeurs dans leurs environnements big data. 

(*) Les membres constituteurs (Platinum) de l'Open Data Platform sont GE, Hortonworks, IBM, Infosys, Pivotal, SAS et un opérateur de télécommunications international. S'y ajoutent 8 membres Gold : AltiScale, Capgemini, CenturyLink, EMC, Splunk, Verizon Enterprise Solutions, Teradata et VMware.