Amazon Web Services a ajouté hier 12 instances haute performance à son service de compute. Elles peuvent être utilisées notamment dans l'offre EMR (Elastic MapReduce) du fournisseur. Parmi les usages possibles, AWS cite l'indexation web, l'extraction de données, l'analyse des journaux de log, l'analyse financière, la simulation scientifique et la recherche en bio-informatique. Hadoop est une plate-forme Open Source qui permet le traitement distribué de grands ensembles de données sur des milliers de noeuds de clusters. Le framework MapReduce sert à répartir la charge de travail entre les noeuds.

Avec ses 32 vCPU (processeurs virtuels), ses 64 Go de mémoire, ses deux unités de stockage SSD de 320 Go et sa connectivité réseaux 10 Gbt/s, le serveur virtuel optimisé c3.8xlarge d'Amazon est destiné au traitement de l'image. Le tarif de l'instance a été fixé à 0,270 dollars HT de l'heure, plus un minimum de 1680 dollars HT pour le serveur EC2 (Elastic Compute Cloud) correspondant. Par contre, « l'instance de stockage optimisée i2.8xlarge est plutôt destinée aux applications d'analyse comme Impala, Spark et HBase », a déclaré Amazon. Cette instance est dotée de 32 vCPU, de 262 Go de mémoire, de huit unités de stockage SSD de 800 Go, et de la connectivité réseaux 10 Gbt/s. Son coût a été fixé à 0,270 dollar HT de l'heure, plus un minimum de 6820 dollars HT de l'heure pour EC2.

Baisse de tarif sur Elastic MapReduce

Selon Amazon le meilleur moyen de savoir quelle instance est la plus appropriée à son usage est de lancer plusieurs petits clusters et de mesurer les performances de chacun pour faire son choix. Au total, les utilisateurs peuvent désormais choisir entre 25 serveurs Elastic MapReduce. Leur coût varie de 0,011 à 0,270 dollar HT de l'heure, auquel s'ajoute le coût de l'EC2. Dans la configuration standard, les utilisateurs ne peuvent pas utiliser plus de 20 serveurs dans tous leurs clusters. Ceux qui ont besoin d'une configuration plus large doivent demander l'autorisation d'Amazon.

Hier, le fournisseur a également appliqué des baisses de tarifs - entre 27 et 61 % de réduction - sur les serveurs virtuels Elastic MapReduce existants. AWS répercute la baisse générale des tarifs annoncée la semaine dernière, en réaction à la baisse des coûts des services décidée par Google. C'est dire que la guerre des prix entre les fournisseurs de cloud public ne montre aucun signe d'accalmie. Lundi, Microsoft avait aussi réduit le prix de son service Azure et ajouté une nouvelle configuration standard à son offre.

Une concurrence très présente

Amazon Elastic MapReduce n'est pas la seule solution pour faire tourner Hadoop dans un environnement hébergé. La plate forme Open Source peut aussi tourner avec HDInsight dans le cloud Azure de Microsoft et avec la plateforme Cloud Big Data Platform de Rackspace. HDInsight comprend un noeud de tête et un ou plusieurs noeuds de calcul, et Microsoft propose une taille pour chaque type. Le noeud de tête (tarif : 0,64 dollar HT de l'heure) tourne sur un serveur Extra Large (A4) et les noeuds de calcul (tarif : 0,32 dollar HT de l'heure) tournent sur un serveur virtuel Large (A3). Ce dernier est équipé de 4 processeurs virtuels et de 7 Go de mémoire, comme l'a indiqué Microsoft.

Rackspace s'est associé à Hortonworks, spécialiste de Hadoop, pour offrir un service capable de concurrencer Amazon. La plateforme Cloud Big Data Platform est actuellement en phase dite de disponibilité limitée, dernière étape avant la disponibilité générale du service. Rackspace propose deux options aux utilisateurs : soit un serveur virtuel partagé avec 2 processeurs virtuels, 7,5 Go de mémoire et 1,3 To de stockage, soit un noeud dédié avec 16 processeurs virtuels, 60 Go de mémoire et 11 To de stockage. Leur prix respectif est de 0,37 et 2,96 dollars HT de l'heure.

Toutes ces offres ont la même ambition : prendre en charge le déploiement et la maintenance, pour faciliter l'usage de Hadoop aux entreprises novices. Ainsi, elles pourront se concentrer sur les tâches essentielles que sont l'analyse et l'extraction de valeur dans les grands ensembles de données.