VMware a dévoilé le projet Serengeti, un programme Open Source qui optimise Hadoop dans des environnements virtualisés. En apportant les bénéfices du cloud aux outils d'analyse big data, il sera plus rapide de déployer et plus de facile à gérer la grande variété de distribution Hadoop sur des VM » souligne Fausto Ibarra, gestionnaire de produit chez VMware.

Hadoop est un framework Open Source capable d'analyser des quantités massives de données non structurées. Ce service est utilisé par plusieurs grandes entreprises comme Yahoo et Facebook. Il commence à être déployé dans les entreprises de taille moyenne. Les analystes estiment que l'annonce de VMware va encourager les entreprises à analyser leur big data. Hadoop est programmé pour fonctionner au début avec les produits de virtualisation de VSphere, qui seront compatibles aussi avec les différentes distributions Hadoop, comme celles de Cloudera, MapR, IBM et Greenplum. Fausto Ibarra explique qu'avec l'avancement du projet Serengeti, d'autres distributions et des fonctionnalités supplémentaires seront ajoutées. Ce programme sera placé sous licence Apache.

« Le projet Serengeti est une initiative importante pour rendre Hadoop attractif pour les entreprises » déclare Tony Baer, analyste chez Ovum. Il ajoute qu'il « existe plusieurs cas d'utilisation où Hadoop pourra tirer bénéfice de fonctionner dans un environnement virtualisé, comme si une entreprise souhaitait expérimenter des fonctionnalités sur des données, mais sans exposer l'ensemble du cluster. »

Plusieurs cas d'usage

Pour Fausto Ibarra, VMware a recensé 3 cas d'utilisation importants de Hadoop : la première est relative à des entreprises qui testent leur plateforme et dispose de 20 noeuds environ. Pour ces clients, le responsable estime que virtualiser la distribution Hadoop est idéal, car cela ne nécessite pas d'investissement conséquent. Le deuxième type de clients est ceux qui ont une utilisation accrue de Hadoop, jusqu'à 100 noeuds ou plus. Ils pourraient être séduits par la flexibilité du projet Serengeti. Enfin, le dernier cas d'usage regroupe les clients  en avance sur l'intégration de Hadoop avec plus d'une centaine de noeuds et qui sont à la recherche des fonctionnalités avancées.

Carl Brooks, un analyste spécialiste du cloud chez 451 Research Group, précise que VMware n'est pas le premier à faire fonctionner Hadoop sur des VM, mais l'annonce la plus significative est que de plus en plus de vendeurs reconnaissent l'importance et le potentiel de Hadoop. Hortonworks, a annoncé en début de semaine, une distribution compatible avec VSphere.