Conçue à l'origine pour faciliter le travail des développeurs web, la plate-forme de containers Linux Docker pourrait aussi être une aubaine pour les applications dédiées au traitement des grands volumes de données. L'équipe à l'origine d'Altiscale, la solution Hadoop-as-a-Service développée par Raymie Stata, l'ancien CTO de Yahoo, travaille en étroite collaboration avec la communauté Docker pour intégrer la technologie à Yarn (Yet Another Resource Negotiator), le planificateur de tâches livrée avec Hadoop 2.0.

M. Stata indique que ce développement est particulièrement important pour son entreprise, ainsi que pour tous ceux qui utilisent Hadoop dans un environnement multi-tenant. Non seulement Docker fournit une solution autorisant le déploiement rapide d'applications sur Yarn, mais il assure également le cloisonnement entre elles. Le cloisonnement est un point important en termes de sécurité (un utilisateur peut disposer des autorisations dans un cluster qui ne s'étend pas au cluster voisin), mais aussi de performances.

Des instances multiples et cloisonnées au-dessus de Yarn

Pour une entreprise comme Cloudera, a-t-il expliqué, l'intégration avec Docker pourrait être « un vrai plus » parce que beaucoup d'utilisateurs de la distribution Hadoop sont limités aujourd'hui à des instances locales et exclusives. Cependant, comme plus en plus de clients commencent à vouloir exécuter plusieurs types de tâches - Spark et Matlab par exemple - au-dessus de Yarn, la gestion d'instances multiples et cloisonnées est arrivée sur la tapis.

Cependant, avant de pouvoir utiliser Docker avec Yarn, il est encore nécessaire d'intégrer le support des User ID (UID) de Linux, qui assurera qu'une application ne déborde pas sur une autre et ne compromet donc pas les performances et l'intégrité d'un container.

A la fin de cette année, les utilisateurs de Hadoop devraient être en mesure de commencer à utiliser des conteneurs Docker en ligne sans compromettre la sécurité de leurs données.  Reste toutefois à savoir s'ils se précipiteront vers Docker, mais Stata semble penser que le désir de maximiser l'usage de Yarn en conduira beaucoup dans cette direction.