Un système de fichiers distribué, un framework de programmation MapReduce et une famille étendue d'outils pour traiter d'énormes volumes de données sur de grands clusters de serveurs basiques... Hadoop a été pendant plus de 10 ans un synonyme de big data. Mais aucune technologie ne peut occuper le devant de la scène pour toujours.

Alors que Hadoop tient toujours une place essentielle dans les plates-formes Big Data, les trois fournisseurs Cloudera, Hortonworks et MapR ont radicalement modifié leurs solutions. Des projets autrefois secondaires comme Apache Spark et Apache Kafka sont désormais très prisés et cherchent davantage à innover dans la manière d’explorer les données et d'extraire les informations. Voici un rapide aperçu des ajouts réalisés à leurs plateformes respectives par chacun des trois fournisseurs pour marquer leur différence.

1- Cloudera Enterprise Data Hub

Cloudera a été le premier fournisseur à commercialiser une distribution Hadoop. Il faut dire que l’entreprise a été aidée par Doug Cutting, le co-créateur de Hadoop, recruté comme architecte en chef. La stratégie adoptée par l'entreprise avec Cloudera Enterprise Data Hub (EDH) a été de « réorganiser et étendre » les projets open source dans l'écosystème Hadoop afin d’offrir une plate-forme sous licence commerciale comprenant un support et un service de niveau entreprise. Le fournisseur propose également une distribution Hadoop gratuite et open source appelée Cloudera Data Hub (CDH). Pour démarrer, il propose aussi une version d'essai d'EDH valable 60 jours.

Cloudera propose différentes façons de télécharger et d'utiliser CDH. Des VM et des images Docker peuvent être utilisées pour l'exploiter localement. Cloudera Manager peut servir à déployer CDH et EDH (incluant la version d'essai) sur un cluster et Cloudera Director peut déployer vers les environnements cloud, dont Amazon en passant par AWS Quick Start.

Les spécificités de Cloudera

Cloudera a fait d’Apache Spark, et des projets liés à Spark, le cœur et l'âme de sa distribution. De fait, le fournisseur a tiré pleinement parti du moteur d'analyse unifié. Cloudera utilise Spark Streaming, Spark MLlib et Spark SQL pour le streaming de données en temps réel, l'apprentissage machine et la recherche de données en mode SQL. Par ailleurs, son logiciel Cloudera Navigator, un ensemble d'outils propriétaires de gouvernance, de gestion et d'optimisation des données, apporte une valeur ajoutée significative à l’offre. Cloudera Navigator trace la provenance des données dans l’entreprise pour la gestion, la conformité et l'audit, et délivre des statistiques en continu sur la charge de travail associée à l’usage des données et recommande des stratégies de placement des données. Le caractère natif de l'apprentissage machine de Cloudera EDH est limité à Spark MLlib. Le support natif de TensorFlow par EDH n’est pas mis en avant. Pourtant, le produit Cloudera Data Science Workbench fournit une interface conviviale pour EDH, permettant aux utilisateurs finaux de créer leurs propres intégrations entre EDH et des frameworks comme TensorFlow.

2 - Hortonworks Data Platform

La plate-forme de données Hortonworks Data Platform (HDP) est une distribution Hadoop 100 % open source. L’usage du produit lui-même est gratuit. Les entreprises clientes d'Hortonworks paient pour bénéficier d’un support et reçoivent également des outils de dépannage proactifs propriétaires pour éviter de potentiels problèmes futurs.

Le site d'Hortonworks propose des téléchargements de HDP dans différents formats. Des installateurs peuvent automatiquement déployer HDP sur diverses architectures, locales ou cloud et des systèmes de gestion de packages sont disponibles pour ceux qui veulent déployer manuellement. Des versions antérieures de HDP sont disponibles en éditions Sandbox. Il s'agit d'environnements HDP préconfigurées packagés dans une machine virtuelle pour être utilisée en développement et test.

Les spécificités de Hortonworks

La version 3.0 de HDP, désormais en disponibilité générale, inclut le provisionnement automatique pour les environnements cloud et les formats de stockage de données en natif pour le cloud (par exemple Amazon S3 et Google Cloud Storage). Elle comprend aussi une fonction de requête SQL interactive via Apache Hive et supporte le traitement par GPU. Mais l’ajout le plus significatif concerne les conteneurs. Les applications installées dans les conteneurs Docker peuvent être exécutées en tant que tâches YARN, côte à côte avec les charges de travail Hadoop traditionnelles. Le déploiement dans des conteneurs Docker permet de s'assurer qu'une tâche peut être exécutée avec la version d'un runtime écrit dans un langage spécifique. Il est également possible d'exécuter des conteneurs dans Kubernetes, en passant par Kubernetes on YARN, où YARN est utilisé comme planificateur dans Kubernetes. Une autre fonctionnalité, actuellement disponible sous forme de preview technologique, permet de déployer des applications d'apprentissage en profondeur TensorFlow dans des conteneurs à travers un cluster HDP.

3 - MapR Converged Data Platform

En termes de licences, le produit phare de MapR, rebaptisé MapR Converged Data Platform en 2016, se situe entre Hortonworks et Cloudera. En effet, MapR propose une distribution communautaire entièrement open source, qui peut donc être utilisée librement, mais elle propose également une édition entreprise payante offrant des capacités de haute disponibilité, d’instantané des données, de reprise après sinistre, ainsi qu’un support technique et d'autres fonctionnalités de niveau entreprise.

MapR propose un package d'installation pour déployer sa version communautaire et sa version entreprise. Les déploiements clous sont directement disponibles sur AWS, Microsoft Azure, Google Cloud ou chez d'autres fournisseurs cloud dans le monde. MapR fournit aussi une édition Sandbox avec des images de machine virtuelle pour VMware ou VirtualBox.

Les spécificités de MapR

MapR Converged Data Platform comprend trois composants principaux. Au système de fichiers MapR-FS (qui permet l'intégration transparente de paradigmes de stockage de données multiples dans les interfaces de système de fichiers, y compris le HDFS de Hadoop) s'ajoute une base de données documentaire NoSQL, ainsi qu'un moteur de streaming d'événements compatible Apache Kafka. Très axé sur les scénarios de traitement en ligne, en streaming, en temps réel et en périphérie, le moteur de streaming d'événements MapR Streams compatible Kafka est un autre différentiateur majeur pour MapR. L'éditeur propose également une plateforme à faible empreinte appelée MapR Edge conçue pour le traitement des données dans les scénarios IoT.

MapR a adapté sa plateforme pour intégrer deux modalités récentes et très demandées : les conteneurs et l'apprentissage machine. Il est possible de planifier et d’exécuter des images Docker sur un cluster MapR utilisant Kubernetes. MapR fournit également un pilote de volume Kubernetes qui permet à ces conteneurs de se connecter directement aux ressources MapR-FS.