En direct d'Amsterdam - La communauté du projet Apache Hadoop prend ses marques en Europe. Pour sa 2ème édition, le Hadoop Summit qui se tient à Amsterdam (les 2 et 3 avril au Beurs van Berlage) accueille cette année 800 participants, soit le double de l'an dernier, a indiqué Herb Cunitz, président de Hortonworks, en ouverture de la conférence que la société organise avec Yahoo. L'événement, qui affiche complet depuis deux semaines, confirme l'intérêt autour du framework Open Source conçu pour le traitement distribué de très gros volumes de données, même si les projets Hadoop en Europe sont évidemment moins avancés et moins nombreux qu'outre-Atlantique. Les entreprises commencent maintenant à sortir de leurs phases de PoC (proofs of concept) et on voit des plateformes de services se mettre en place, confirme un cabinet de conseil en IT comme Octo Technology. Parmi les intervenants français à Amsterdam figuraient en particulier Criteo, au nombre des premiers en production en France(*), qui gère aujourd'hui d'importants clusters Hadoop, et EDF R&D, qui était déjà intervenu en 2012 lors d'un Hadoop Summit américain. 

En deux jours et soixante sessions, le Hadoop Summit européen fait intervenir les principaux promoteurs du framework Open Source. Si l'événement se tient à l'initiative de Hortonworks, qui en a profité pour annoncer la technical preview de HDP 2.1, son président Herb Cunitz a souligné que le contenu et les thèmes abordés avaient été décidés en concertation avec la communauté. Les sessions font notamment le point sur les briques et sous-projets d'Hadoop, le système de gestion de fichiers HDFS, YARN, le planificateur de tâches qui gère les ressources des clusters au-delà de MapReduce, Hive (datawarehouse, qui utilise un langage de requête proche de SQL), Tez, HBase, Falcon, Mahout...

Marché Hadoop: 6 Md$ l'an prochain, 50 Md$ en 2020

La conférence est soutenue cette année par une trentaine de sociétés aux premiers rangs desquelles figurent Microsoft, Teradata et SAP, fortement engagés derrière HDP. Mais Cloudera et MapR, les éditeurs des deux autres distributions Hadoop sont également présents, de même que HP (qui promeut sa plateforme Haven), Talend, Informatica, SAS, Actian, Splunk ou encore la start-up française Dataiku (studio de construction d'applications prédictives) pour ne citer qu'eux. Des acteurs que l'on retrouvait aussi sur le salon Big Data Paris qui se tenait au même moment, du 1er au 2 avril.

Hadoop Summit 2014 à Amsterdam
Hadoop Summit 2014 se tient sur le site du Beurs van Berlage d'Amsterdam. (agrandir l'image)

Sur le marché du big data, Hadoop n'est qu'un sous-ensemble. Mais il est promis dans son sillage à une forte croissance, prédisent les analystes. Rob Bearden, CEO d'Hortonworks, rapporte des prévisions de 27 milliards de dollars en 2015 pour le marché des big data, au sein duquel Hadoop se taillerait 6 milliards de dollars, dont 27% pour le logiciel, 38% pour le matériel et 35% pour les services. En 2020, les projections grimpent à 100 Md$ pour le big data dont 50 Md$ pour Hadoop. La croissance sera tirée tout à la fois par des motifs métiers, techniques et financiers, rappelle le CEO en citant le besoin d'analyser les données clients de façon proactive plutôt que réactive, l'augmentation exponentielle des données dans tous les formats et l'intérêt d'utiliser des serveurs de base pour les traiter. Sur ce dernier point, les partenariats noués par Hortonworks avec Teradata ou SAP montrent que les entreprises qui ont déjà investi dans des appliances et des systèmes d'analyse avancés ont néanmoins besoin de compléter ceux-ci avec des solutions à moindre coût.

HDP 2.1 accueille Falcon, Knox, Storm et Solr

Rob Bearden a aussi souligné l'évolution nécessaire d'Hadoop. Conçu au départ pour les besoins de traitements par lots des grands fournisseurs d'applications web (comme Google, Yahoo et Facebook), le framework a d'abord séduit des précurseurs. Il doit maintenant convaincre les entreprises plus conservatrices qui veulent des outils éprouvés. Or, certains PoC ont montré les limites d'Hadoop sur la sécurité (le frein principal confirmait un utilisateur sur le salon) et sur l'administration. Les entreprises intéressées soulignent aussi le manque de compétences disponibles sur le marché pour le mettre en oeuvre. A tout cela, les promoteurs d'Hadoop veulent apporter des réponses. Hortonworks a notamment souligné l'arrivée d'Apache Knox dans HDP 2.1, qui fournit un seul point d'authentification sécurisée pour l'accès aux clusters Hadoop. La société, créée en 2011 par d'anciens ingénieurs de Yahoo, insiste sur son choix de rester fidèle à 100% aux développements Open Source du projet, sans aucun ajout propriétaire. Hortonworks certifie les dernières innovations stables de la communauté et lui fait remonter les problèmes qu'elle a trouvés.

La version 2.1 de HDP est une évolution majeure pour la plateforme, a souligné Jim Walker, ancien développeur, aujourd'hui directeur marketing produit chez Hortonworks. Parmi les nouveautés importantes, la mise en oeuvre de Stinger qui apporte l'interactivité aux requêtes de type SQL que permet Hive et élargit la sémantique SQL utilisée. Cette interface d'accès SQL à Hadoop apporte des capacités d'évolutivité importante sur les requêtes, qui peuvent porter sur des petaoctets de données. Un autre apport notable porte sur la gouvernance de données, simplifiée avec l'arrivée d'Apache Falcon, framework conçu pour gérer le cycle de vie des données (acquisition, traitement, réplication, redirection vers des extensions non Hadoop). Falcon permet aussi de tracer le chemin des données (data lineage). Falcon a été initialement conçu par la société InMobi qui l'a ensuite transmis à la fondation Apache. La mise au point de cette brique a pris 14 mois et elle a été testée en production.

Avec la version 2.1, Hortonworks a également ajouté deux moteurs dans HDP, Storm et Solr. Apache Storm permet le traitement de flux de données en temps réel et l'analyse d'événements provenant de capteurs ou pour la surveillance d'activités métiers. Il est intégré avec Ambari pour sa gestion. Enfin, sur les fonctionnalités de recherche, HPD 2.1 propose Apache Solr qui s'appuie sur le moteur Lucene. Un partenariat avec LucidWorks permettra de proposer les niveaux de support 3 et 4 sur Solr.

La société Hortonworks, qui réunit 300 collaborateurs au niveau mondial, a déployé en Europe une équipe commerciale d'une quinzaine de personnes, réparties entre Paris, à Munich et à Londres.

(*) Autres exemples déjà connus d'utilisation d'Hadoop en France, celui de Canal+ qui combine le framework à une solution Teradata, Crédit Mutuel qui a commencé à l'expérimenter en 2009, ou encore Darty, le PMU, Vente Privée.