Spot Mini, le dernier robot à quatre pattes de Boston Dynamics qui range la vaisselle et apporte des canettes (pratique pour suivre l'Euro 2016).

L'Image du jour

Spot Mini, le dernier robot à quatre pattes de Boston Dynamics qui range la vaisselle et apporte des canettes (pratique pour suivre l'Euro 2016).

French Tech : Effet pschitt ou vrai accélérateur

Dernier Dossier

French Tech : Effet pschitt ou vrai accélérateur

De la French Touch à la French Tech, c'est le message que Bpifrance a souhaité faire passer aux 30 000 visiteurs (startups, entrepreneurs, PME, ETI, g...

Restez proche de l'actualité IT

NEWSLETTERS THEMATIQUES

Découvrez nos différentes newsletters adaptées à vos besoins d'actualités IT Pro : Mobilité, Réseaux, Stockages, ...

Abonnez-vous 
FERMER

LMI MARKET

Votre comparateur de prestataires IT : Comparez les devis, Evaluez les prestataires, Trouvez le juste prix!...

Accéder à ce service 

BLOG

Découvrez les contenus exclusifs publiés par les lecteurs du Monde Informatique avec la plateforme LMI Blog...

Accéder à ce service 

COMPARATEUR DE SALAIRE

Partagez votre situation salariale anonymement, consultez les statistiques depuis 2009 et faites vos propres analyses...

Accéder à ce service 

IT TOUR

LMI vous invite à sa Matinée-Débats dans votre région.
Inscrivez-vous

Accéder au site 
FERMER
0
Réagissez Imprimer Envoyer

Apache lance Arrow, un autre projet big data ambitieux

Le projet Arrow lancé par Apache va permettre d'accélérer très nettement les traitements analytiques. (agrandir l'image / crédit Apache)

Le projet Arrow lancé par Apache va permettre d'accélérer très nettement les traitements analytiques. (agrandir l'image / crédit Apache)

Promis à traiter la majorité des données big data dans les prochaines années, selon l'équipe qui le supervise à la fondation Apache, le projet Arrow pourra améliorer les performances par un facteur 100 sur les traitements analytiques.

Hadoop, Spark et Kafka ont déjà une influence déterminante dans le monde du big data et voilà qu’arrive un nouveau projet Apache qui semble avoir le potentiel pour faire avancer les choses encore plus loin : Arrow. La fondation Apache Software l’a lancé hier sous la forme d’un projet de haut niveau (top-level) destiné à fournir une couche de données haute performance pour l’analyse en mémoire exploitant le stockage en colonne à travers des systèmes disparates. Basé sur le code du projet associé Apache Drill, Arrow peut apporter une forte amélioration des performances, accélérant par un facteur 100 les traitements analytiques, selon la fondation. De façon générale, il permet les traitements multi-systèmes en éliminant les échanges indirects. Les équipes contribuant au code comprennent des développeurs d’autres projets big data gérés par Apache, tels que Calcite, Cassandra, Drill, Hadoop, HBase, Impala, Kudu, Parquet, Phoenix, Spark et Storm.

« La communauté open source a uni ses forces sur Apache Arrow », souligne Jacques Nadeau, l’un des responsables de Drill et vice-président sur le nouveau projet. « Nous anticipons que la majorité des données dans le monde seront traitées à travers Arrow dans les prochaines années ». Dans de nombreux traitements, entre 70 et 80% des cycles CPU sont mis à contribution pour la sérialisation et la désérialisation des données, processus qui convertit la structure des données en un format qui peut être stocké et reconstruit par la suite à l’identique. Arrow allège cette charge en permettant aux données d’être partagées entre les systèmes et exploitées sans sérialisation, désérialisation ou copies en mémoire, explique la fondation.

Arrow pourra traiter aussi les données JSON

Ted Dunning, vice-président d’Incubator (qui examine les projets désirant entrer dans la fondation) explique qu’une couche de données en colonnes en mémoire au standard de l’industrie permettra aux utilisateurs de combiner différents systèmes, applications et langages de programmation dans un seul traitement sans les habituels échanges qui s’effectuent au-dessus.

Arrow supporte aussi les données complexes avec des schémas dynamiques en plus des données relationnelles classiques. Par exemple, le projet pourra traiter les données JSON qui sont couramment utilisées dans les traitements de l’Internet des objets, dans les applications actuelles et dans les fichiers de connexion. Les mises en œuvre sont aussi possibles avec un nombre de langages de programmation pour une meilleure interopérabilité. Le logiciel Arrow est disponible sous licence v2.0. Il est suivi par une équipe choisie de contributeurs actifs.

Commenter cet article

commenter cet article en tant que membre LMI

CONNEXION

Commenter cet article en tant que visiteur






* Les liens HTML sont interdits dans les commentaires

35 ans
21 Mars 1983 n°94
Publicité
Publicité
Publicité