L'Apache Software Foundation a annoncé la première version prête à entrer en production de son outil Spark, un logiciel d'analyse qui pourrait accélérer l'exécution de certains requêtes sur la plate-forme de traitement de données Hadoop. Présenté par beaucoup comme le « couteau suisse de l'armada Hadoop », Apache Spark offre la possibilité de créer des tâches d'analyse de données qui peuvent fonctionner jusqu'à 100 fois plus vite - en mémoire - que celles réalisées avec le traditionnel outil MapReduce. Ce dernier a été largement critiqué comme étant un goulot d'étranglement dans les clusters Hadoop parce qu'il exécute les jobs en mode batch, ce qui rend impossible l'analyse en temps réel de données.

Spark offre une alternative à MapReduce car il exécute les jobs dans des micro-lots avec des intervalles de cinq secondes ou moins. Soit une sorte de fusion entre le batch et le temps réel ou presque. Il fournit également plus de stabilité que d'autres outils de traitement temps réel, comme Twitter Storm, greffés sur Hadoop. Le logiciel peut être utilisé pour une grande variété d'usages, comme une analyse permanente des données en temps réel, et, grâce à une bibliothèque de logiciels, des emplois plus nombreux pour les calculs en profondeur impliquant l'apprentissage automatique et un traitement graphique.

Un code plus facile à utiliser que celui de MapReduce

Avec Spark, les développeurs peuvent simplifier la complexité du code MapReduce et écrire des requêtes d'analyse de données en Java, Scala ou Python, en utilisant un ensemble de 80 routines de haut niveau. Avec cette version 1.0  de Spark, Apache propose désormais une API stable, que les développeurs peuvent utiliser pour interagir avec leurs propres applications. Autre nouveauté de la version 1.0, un composant Spark SQL pour accéder aux données structurées, permettant ainsi aux données d'être interrogées aux côtés de données non structurées lors d'une opération analytique. Spark Apache est bien sûr compatible avec le système de fichiers HDFS (Hadoop's Distributed File System), ainsi que d'autres composants tels que YARN (Yet Another Resource Negotiator) et la base de données distribuée HBase.

L'Université de Californie, et plus précisément le laboratoire AMP (Algorithms, Machines and People) de Berkeley est à l'origine du développement de Spark que la fondation Apache a adopté en tant que projet en juin 2013. Des entreprises IT comme Cloudera, Pivotal, IBM, Intel et MapR ont déjà commencé à intégrer Spark dans leur distribution Hadoop. Databricks, une société fondée par certains développeurs de Spark, offre d'ores et déjà un support commercial pour ce logiciel. Yahoo et la NASA, entre autres, ont déjà commencé à utiliser le framework pour leurs opérations quotidiennes de traitement de données. Comme avec tous les logiciels de la fondation Open Source, Spark est disponible sous licence Apache 2.0.