Des chercheurs travaillent sur un substrat composé de molécules métal-oxyde qui peuvent agir en tant que composant flash.

L'Image du jour

Des chercheurs travaillent sur un substrat composé de molécules métal-oxyde qui peuvent agir en tant que composant flash.

Région PACA : Une filière numérique ancrée et solide mais dispersée sur un vaste territoire

Dernier Dossier

Région PACA : Une filière numérique ancrée et solide mais dispersée sur un vaste territoire

Ne percevons pas uniquement la région PACA (Provence-Alpes-Côte d'Azur) à travers le tourisme et le soleil ! Cette région possède aussi une solide fil...

Restez proche de l'actualité IT

NEWSLETTERS THEMATIQUES

Découvrez nos différentes newsletters adaptées à vos besoins d'actualités IT Pro : Mobilité, Réseaux, Stockages, ...

Abonnez-vous 
FERMER

ESPACE PARTENAIRE

Webcast

FERMER

LMI MARKET

Votre comparateur de prestataires IT : Comparez les devis, Evaluez les prestataires, Trouvez le juste prix!...

Accéder à ce service 

BLOG

Découvrez les contenus exclusifs publiés par les lecteurs du Monde Informatique avec la plateforme LMI Blog...

Accéder à ce service 

COMPARATEUR DE SALAIRE

Partagez votre situation salariale anonymement, consultez les statistiques depuis 2009 et faites vos propres analyses...

Accéder à ce service 

IT TOUR

LMI vous invite à sa Matinée-Débats dans votre région.
Inscrivez-vous

Accéder au site 
FERMER
0
Réagissez Imprimer Envoyer

Hortonworks livre une preview de Hadoop 2.0

Dans Hadoop 2.0, Apache YARN, succède au planificateur de tâches MapReduce. (source illustration : Apache Software Foundation).

Dans Hadoop 2.0, Apache YARN, succède au planificateur de tâches MapReduce. (source illustration : Apache Software Foundation).

Sur l'Hadoop Summit 2013, Arun Murthy, l'un des ingénieurs développant sur le framework Open Source et co-fondateur de Hortonworks a souligné que la preview Hadoop 2.0 faisait bien plus que du traitement par lots. Sa structure offre une base pour effectuer des requêtes interactives et de l'analyse en temps réel.

Hortonworks vient de livrer, en mode preview, une distribution de la prochaine génération d'Apache Hadoop qui promet d'élargir le champ des tâches pouvant être réalisées sur la plate-forme de traitement de données. « Hadoop 2.0 inaugure une architecture fondamentalement différente qui en fait bien plus qu'une plate-forme de traitements par lots », selon Arun Murthy, l'un des fondateurs de Hortonworks, et l'un des principaux ingénieurs travaillant sur le développement d'Hadoop. Selon lui, cette mise à jour « va entraîner une nouvelle vague d'innovation ».

La Community Preview de Hortonworks Data Platform 2.0 (HDP 2) contient un certain nombre de nouveaux composants pour l'environnement Hadoop, et notamment YARN (Yet Another Ressources Negociator), qui succède au planificateur de tâches MapReduce de Hadoop. « Au départ, Hadoop a été conçu comme une « plate-forme d'application unique », principalement pour l'exploration et l'indexation de contenu web », a rappelé Arun Murthy. « Aujourd'hui, les entreprises cherchent à utiliser la plate-forme autrement, par exemple pour des requêtes interactives ou l'analyse des flux en temps réel ». YARN va plus loin que MapReduce parce qu'il permet d'utiliser la plateforme Hadoop pour effectuer d'autres types de tâches. MapReduce permettait principalement de gérer les tâches de traitement par lots en effectuant l'analyse des données à travers un certain nombre de noeuds plus ou moins importants et de retourner les résultats une fois l'analyse terminée.

YARN peut gérer des tâches liées à des requêtes interactives

Au contraire, YARN apporte un framework multifonction pour la gestion des ressources. Il fournit une base pour exécuter des tâches qui n'ont plus nécessairement à voir avec le traitement par lots, par exemple l'analyse des flux de données en continu, ou des tâches impliquant des requêtes interactives dans l'interrogation de données à la volée par exemple. « Désormais,  avec YARN, on va pouvoir effectuer côte à côte du traitement par lots MapReduce et des requêtes SQL interactives », a déclaré le fondateur de Hadoop. « YARN permet de disposer d'un cluster capable de différencier les charges de travail et les besoins en ressources, de les faire cohabiter et de les équilibrer. Une charge de travail ne va pas dominer sur toutes les autres, ni mobiliser toutes les ressources au niveau du cluster », a expliqué Shaun Connolly, vice-président de la stratégie chez Hortonworks. « Jusque-là, il fallait affecter chaque cluster à des tâches différentes ».

HDP 2.0 comprend aussi d'autres nouveaux composants, comme Apache Tez, un add-on pour YARN qui permet d'accélérer le traitement des grosses tâches interactives, et Stinger, qui permet d'accéder à une série de technologies pour exécuter des requêtes SQL dans un référentiel Hadoop. L'aperçu de HDP 2.0 est une distribution Hadoop complète. Il fonctionne soit dans les environnements virtuels Oracle VirtualBox ou VMware.

Hadoop « as a service » chez Rackspace

C'est lors du Hadoop Summit 2013, qui s'est tenu les 26 et 27 juin derniers à San José (Californie) que Hortonworks a annoncé HDP 2.0. Pendant cette conférence, Rackspace a également annoncé qu'il allait proposer Hadoop sous forme de service avec des outils d'analyse de Pentaho. Par ailleurs, Splunk a livré un nouvel outil appelé Hunk pour explorer les référentiels Hadoop.

Quant au spécialiste de l'entreposage de données et d'applications analytiques, Teradata, il a dévoilé de nouvelles appliances Hadoop. Enfin, VMware a mis à jour sa plateforme de virtualisation vSphere pour la rendre compatible avec les clusters Hadoop.

Commenter cet article

commenter cet article en tant que membre LMI

CONNEXION

Commenter cet article en tant que visiteur






* Les liens HTML sont interdits dans les commentaires

Publicité
Publicité
Publicité