Les utilisateurs d'Apache Hadoop pourront bientôt analyser les données en même temps qu'elles seront diffusées depuis leur source, grâce au partenariat conclu entre Informatica, le premier fournisseur de solutions d'intégration de données, et MapR, bien connu pour sa distribution Apache Hadoop. Les deux partenaires vont intégrer leurs produits de telle sorte que le monde de l'analyse big data puisse travailler plus facilement et avec un plus grand nombre de solutions d'entreposage classiques.

Plus précisément, les deux entreprises développent un connecteur dont la fonction sera d'ingérer les données émises en streaming depuis l'application Ultra Messaging d'Informatica dans une implémentation Hadoop de MapR. Ultra Messaging sera chargé de copier des volumes importants d'entrées de log, d'informations liées aux transactions et d'autres types de contenu mis à jour en continu, sur un système de bus de messages, de façon à ce que les données puissent être réutilisées et analysées par d'autres systèmes.

Dépasser le traitement par lots

La plate-forme de traitement de données Hadoop peut être utilisée pour stocker et analyser de grandes quantités de données de formats différents. « L'inconvénient de Hadoop, c'est que la plate-forme est conçue pour gérer le traitement par lots, » a expliqué Jack Norris, vice-président du marketing chez MapR. Dans l'édition standard de Hadoop, le système de fichiers HDFS sous-jacent exige que le fichier de données soit fermé avant de pouvoir être analysé. Cela peut devenir problématique quand il faut analyser des flux de données mis à jour en continu, car l'administrateur doit fixer une durée arbitraire pour clore le dossier et démarrer l'analyse. Par conséquent, « on sait pertinemment que le traitement porte sur des données plus anciennes, » a déclaré le vice-président du marketing.

Cependant, la distribution Hadoop de MapR, a ceci d'unique, en ce qu'elle permet aux données d'être lues, même quand le fichier est ouvert et en cours d'écriture. En connectant MapR avec Ultra Messaging, le système combiné va permettre l'analyse des données en temps quasi-réel dès qu'elles sortiront du bus de messages. Avec Hadoop, les utilisateurs peuvent ensuite combiner ces données « live » avec d'autres types de données, et profiter donc d'un plus large éventail de données à analyser. « Avec Hadoop, l'analyse n'est pas seulement réalisée à partir d'une seule source de données. Elle résulte de la combinaison de différentes sources, » a expliqué Jack Norris. « Ce mélange de technologies pourrait s'avérer utile pour des tâches de reconnaissance de formes avec des marqueurs temporels, » a ajouté le vice-président du marketing. C'est le cas par exemple de la détection des fraudes par les institutions financières. Celles-ci pourraient en effet s'en servir pour repérer l'usage abusif des cartes de crédit très rapidement. Les systèmes informatiques sont depuis longtemps utilisés pour la détection des fraudes, mais la combinaison de Hadoop avec un flux de données en temps réel permettrait de surveiller en même temps une quantité beaucoup plus élevée de données provenant de plus de sources,  et donc d'identifier des infractions plus rapidement. « Il sera possible de surveiller un portefeuille complet de transactions et de détecter les petites fraudes plus rapidement, » a confirmé Jack Norris.

Une solution concurrente déjà sur le marché

Il existe déjà au moins une technologie concurrente pour résoudre le problème de l'analyse en temps réel de gros volumes de données. L'an dernier, suite au rachat de BackType par Twitter, le réseau social a publié une version Open Source de son logiciel d'analyse de flux de données Storm que Twitter utilise pour repérer les tendances émergentes de ses utilisateurs.

En plus d'Ultra Messaging, les deux entreprises développent des connecteurs pour d'autres outils d'intégration de données Informatica, notamment pour la connectivité bidirectionnelle des applications d'entreposages phares d'Informatica, PowerCenter et PowerExchange. Les données MapR pourront être sauvegardées dans Informatica Data Replication et Informatica FastClone. En outre, l'édition communautaire HParser d'Informatica, un analyseur de fichier Hadoop, sera livré avec la distribution MapR.