La plateforme d’intégration et d’analyse de données Pentaho arrive dans une version 6 qui sera lancée à l’occasion de sa conférence utilisateurs, du 14 au 15 octobre à Orlando. Elle renforce son concept de pipeline pour la gestion des données. Depuis deux ans, le moteur d’ETL de la suite, PDI (Pentaho Data Integration) permet de mélanger les données à partir des différentes sources avant de les transmettre aux outils d’analyse. La v6 dispose maintenant du data lineage. Cette fonctionnalité retrace l’historique de chaque donnée quand elle sort de l’ETL et arrive dans l’outil d’analyse ou de reporting. Elle identifie l’origine des données et la façon dont elles sont utilisées. « Cela permettra de faire de l’analyse d’impact quel que soit l’environnement technique, Hadoop ou bases de données relationnelles », nous a indiqué Sébastien Cognet, ingénieur commercial chez Pentaho France. L’analyse d’impact détermine quelles données en aval seront affectées par des modifications apportées à une source.

Avec la version 6.0, de nouveaux services ont été ajoutés pour croiser les jeux de données à la volée. L’ETL va permettre aux développeurs et aux data scientists d’interroger en SQL les différentes sources sur lesquelles ils travaillent à n’importe quelle étape d’une transformation. La mise en oeuvre est simplifiée par rapport à la précédente version, avec une mise à disposition plus rapide des jeux de données, l’ETL conservant les dernières requêtes en cache, explique Sébastien Cognet en précisant qu’on peut ajuster le time out du cache. L’objectif de Pentaho est de « rendre ainsi les données de l’ETL disponibles comme un service », note l’ingénieur commercial. « C’est un point important, on fournit des données préparées pour répondre à tel ou tel use case». Par ailleurs, la version 6 supporte Java 8, Spring 4 et Tomcat 8. Elle permet aussi dans sa chaîne d’ETL de charger massivement des données dans SAP/HANA.

Le Bon Coin et le Cern parmi les clients français

Enfin, la gestion du cycle de vie de l’applicatif lui-même a été améliorée avec cette v.6. Il sera plus facile pour les entreprises clientes de migrer vers la nouvelle version de Pentaho, à l’aide d’assistants (wizards). Depuis la v5, ces derniers existaient déjà pour appliquer les mises à jour au sein d’une même version. Administrer le fonctionnement de la plateforme sera aussi plus simple pour les entreprises utilisant des outils de monitoring SNMP, protocole avec lequel Pentaho v6 s’intègre de façon plus étroite.

L’éditeur de solutions open source a été racheté en février dernier par Hitachi Data Systems. Sa plateforme reste commercialisée de façon indépendante mais, en France notamment, ses équipes ont commencé à travailler avec HDS en avant-vente sur des projets communs. Dans l’Hexagone, le spécialiste de l’intégration de données compte Le Bon Coin et le Cern parmi ses clients. Le site d’annonces en ligne utilise Pentaho pour intégrer les données de tracking de son activité. Celui-ci lui permet de disposer d’un historique sur ses annonces s’il doit ressortir des données à des fins légales. Quant au laboratoire européen pour la recherche nucléaire, il illustre un axe stratégique fort dans l’offre de l’éditeur américain, celui de l’analytique embarquée. Pour faciliter la conduite du changement, les fonctions analytiques de Pentaho sont mises à la disposition de 15 000 utilisateurs au sein des applications existantes du Cern.