A l'occasion de la Strata Conference consacrée à la gestion de données (du 28 février au 1er mars à Santa Clara), l'éditeur français Talend a annoncé qu'il supportait HDFS (Hadoop Distributed File System), Pig, HBase, Sqoop et Hive dans une solution s'appuyant sur sa suite d'intégration Open Studio. Logiquement baptisée Open Studio for Big Data, celle-ci génère nativement du code Hadoop et exécute les transformations de données directement au sein de la plateforme Hadoop Apache « pour assurer une montée en charge maximale », explique Talend. Cela permet aussi de combiner ce type de traitement avec des processus traditionnels d'intégration de données (ETL ou ELT) pour améliorer les performances globales, souligne l'éditeur.

Depuis le lancement de son offre d'ETL (extraction, transformation, loading) en Open Source, en 2006, Talend affiche son ambition de démocratiser l'intégration de données. Il a successivement étendu les fonctionnalités de son offre, en lui ajoutant une solution de MDM (master data management), des outils de gestion de la qualité des données et un ESB. Il l'a aussi associé aux fonctions de BPM (gestion des processus) de BonitaSoft. Cette fois, il entend faciliter la prise en charge des big data. Il n'est plus nécessaire d'avoir un doctorat en traitement massivement parallèle et en science des données pour exploiter les big data, s'amuse Yves de Montcheuil, vice-président marketing de Talend, sur le blog de la société. « Les jobs d'intégration peuvent maintenant être réalisés à partir d'une interface drag and drop », explique-t-il. Open Studio for Big Data génère le code MapReduce nécessaire pour mettre en oeuvre les clusters Hadoop et réaliser ces transformations complexes. 

Prise en charge de la qualité des données

Le logiciel s'intègre dans l'offre Talend Platform for Big Data, cette dernière apportant au traitement de ces énormes volumes d'informations des fonctionnalités de gestion de projet et de prise en charge de la qualité des données. « Une première » dans ce domaine, affirme Yves de Montcheuil en soulignant que les big data exacerbent les problèmes de non-qualité des données au point de rendre celles-ci inexploitables.

« Mis à disposition sous licence Apache, Talend Open Studio for Big Data devient une composante native de la pile Apache Hadoop », ajoute le vice-président marketing. Le produit est compatible avec toutes les distributions Hadoop et il sera par ailleurs livré avec celle d'Hortonworks. Une version bêta d'Open Studio for Big Data est disponible au téléchargement.