L'Apache Software Foundation a dévoilé Hadoop 2, la dernière version du logiciel Open Source de traitement big data. Cette évolution a mis plus de 4 ans avant d'être publiée et intègre de nouveaux composants. La modification la plus notable est l'arrivée de Yarn (Yet Another Resource Negotiator), le successeur de MapReduce. La fondation l'appelle d'ailleurs MapReduce 2. Elle sépare les fonctions majeures en deux processus distincts, la gestion des ressources (Ressources Manager) pour le premier et la planification des tâches, ainsi que la surveillance pour le second (Node Manager).

Yarn se situe au-dessus de HDFS (Hadoop Distributed File System) et se positionne comme un système d'exploitation distribué pour les applications big data. Cela permet d'exécuter plusieurs applications simultanément et de garantir un suivi de la donnée sur la totalité de son cycle de vie. Hadoop 2 et Yarn donnent aux utilisateurs la possibilité de regrouper les charges de travail en lot, de manière interactive ou en temps-réel à l'intérieur de l'écosystème stabilisé de Hadoop, souligne la Fondation dans un communiqué. Cette dernière a gardé l'API de compatibilité avec la précédente version et les applications fonctionneront avec une simple recompilation.

Hadoop 2 est disponible immédiatement. La distribution faite suite à une version preview qui est sortie en juin dernier et qui comprenait déjà Yarn. Elle est disponible sous la licence Apache 2.0. Pour mémoire, Hadoop est un framework Java qui permet de traiter en mode distribué de grands volumes de données à travers des clusters de serveurs qui utilisent des modèles de programmation simple. Il a été déployé dans plusieurs grandes entreprises dans le monde, AWS, AOL, Apple, Ebay, Facebook, Netflix, Crédit Mutuel, Carrefour, Leroy-Merlin, etc.