Développé en 2009 par l’AMPLab de l’Université de Berkeley, le framework Spark est passé en Open Source en 2010 sous la forme d’un projet Apache. Concurrent des piles Hadoop MapReduce ou Storm, Spark offre la possibilité de créer des tâches d'analyse de données qui peuvent fonctionner jusqu'à 100 fois plus vite - en mémoire - que celles réalisées avec les outils traditionnels. Et hier, IBM a annoncé l’arrivée de Spark sur sa plate-forme cloud BlueMix. Et pour participer à l’enrichissement de ce framework, big blue publie sous licence Open Source (à préciser) son logiciel de machine learning SystemML et va ouvrir un Spark Technology Center à San Francisco. Ambitieuse, la firme indique vouloir enseigner les subtilités de Spark à plus d’un million de scientifiques et d'ingénieurs spécialisés dans le traitement et l’analyse des données avec AMPLab, DataCamp, MetiStream, Galvanize et Big Data University MOOC, et impliquer plus de 3500 chercheurs et développeurs maison sur des projets Spark.

Beaucoup de spécialistes considèrent Spark comme le successeur de Hadoop, mais son adoption reste néanmoins lente. Anita Curty, directrice des ventes Big Data chez IBM France, nous a ainsi indiqué lors d’une interview téléphonique que l’engagement d’IBM allait être un accélérateur pour Spark. « MapReduce n’est pas la meilleure technologie pour le traitement en mémoire, Spark permet de travailler beaucoup plus vite. Nous venons d’ailleurs de réaliser un POC Spark pour une banque française ».

Si l’intérêt d'IBM pour Spark représente une menace concurrentielle pour certaines start-ups déjà parties sur ce marché (Adatao, Alpine Data Labs ou encore ClearStory Data), big blue a décidé de travailler avec une des plus connues Databricks, qui propose une solution Spark en mode SaaS sur AWS. L’arrivée de Spark sur Bluemix est attendue au troisième trimestre de cette année, une version bêta est actuellement testée par certains clients. « Spark apporte une grande facilité d’utilisation, nous misons sur une adoption massive de cette technologie. En France, on accuse toujours un certain retard par rapport aux pays anglo-saxons, mais des projets forts démarrent sur le marché français », a souligné Mme Curty. « Nous constatons de gros besoins en France et si les premières expérimentations répondent à des besoins spécifiques – la phase 1 – les projets de transformation plus complexes – la phase 2– arrivent ensuite avec la réorganisation des données », a précisé lors de ce même entretien Laurent Sergueenkoff, responsable des ventes big data chez IBM France. Précisons enfin que, comme à San Francisco en juin dernier, IBM envisage de programmer un hackathon Spark à Paris pour sensibiliser les étudiants informatiques et élèves ingénieurs à ces questions.