Depuis plusieurs années déjà, Pentaho met l'accent sur le traitement des big data. Avec la version 5.0 de sa plateforme décisionnelle, l'éditeur de logiciels en Open Source renforce encore ses capacités dans ce domaine. Cette évolution met l'accent sur ses outils d'intégration, l'un des points forts de son offre, en permettant aux analystes d'effectuer des croisements de données, nettoyées et structurées, directement à partir des sources, explique l'éditeur. Pour ce faire, le moteur d'ETL de la suite, PDI - Pentaho Data Integration - dispose d'une interface revisitée, Data Blending, à partir de laquelle les données seront transmises aux outils d'analyse de Pentaho, ou à d'autres logiciels de BI (le moteur PDI existe dans une version communautaire dénommée Kettle).

Matt Casters, responsable de ce domaine chez Pentaho et fondateur de Kettle, explique son fonctionnement dans un billet. Traditionnellement, les données sont fournies aux outils de BI à travers une base relationnelle. Mais avec les gros volumes de données, il devient un problème de passer par cette étape quand on n'a pas le temps d'attendre que les tables de la base soient mises à jour. Dans cette situation, on peut se retrouver à jongler avec des architectures complexes où cohabitent des clusters Hadoop, des technologies NoSQL et des SGBDR, des outils d'ETL, des datamarts, des logiciels de BI, etc. Il peut s'avérer difficile de rassembler tout cela en donnant aux utilisateurs la possibilité de mélanger les données avec plusieurs niveaux de granularité.

Une base de données virtuelle

Le langage utilisé par défaut par presque tous les outils de BI, c'est SQL, rappelle Matt Casters. L'intégration de données nécessite de pouvoir lire de multiples sources : SGBD, feuilles de calcul, bases NoSQL, XML, fichiers JSON, services web, etc. Or, « SQL constitue en lui-même un petit environnement d'ETL puisqu'il permet de sélectionner, filtrer, compter et agréger des données », met en évidence le responsable technique de Pentaho. « Nous avons donc pensé que cela serait plus facile si nous pouvions traduire en transformations PDI le SQL utilisé par les différents outils de BI. De cette façon, PDI fait ce qu'il fait le mieux, pas au moyen de transformations effectuées manuellement, mais via SQL. En d'autres termes : nous permettons de créer une base de données virtuelle avec des tables où les données proviennent en fait d'une étape de transformation », détaille Matt Casters dans son billet.

Pentaho met donc en avant que sa version 5 permet de mélanger les données à la source tout en maintenant les impératifs de gouvernance et de sécurité requis pour des analyses précises et fiables. Ce qui, ajoute-t-il, n'est plus possible lorsque les données sont combinées à distance de leurs sources. PDI permet d'éviter un stockage intermédiaire des informations, induisant le risque d'effectuer des analyses sur des données déjà dépassées.
Pentaho Data Integration
PDI propose une approche "drag and drop" pour intégrer les données.


Rapports sur MongoDB et services REST pour les développeurs

Parmi les autres nouveautés de cette version, les interfaces ont été revues pour fluidifier la navigation, tant pour l'utilisateur que pour l'administrateur. Les analystes métiers peuvent créer des rapports pour la base de données NoSQL MongoDB. D'autres possibilités de tableaux de bord ont été ajoutées. Côté administration, la version 5.0 intègre l'équilibrage des charges, ainsi que le redémarrage et la restauration des tâches.

La suite BI s'intègre maintenant avec les moteurs Impala (de Cloudera) et Splunk, avec l'entrepôt Redshift (d'Amazon). Elle a par ailleurs été certifiée pour MongoDB, Cassandra et DataStax (distribution de Cassandra), ainsi que par les principaux fournisseurs de distribution Hadoop, Cloudera, Intel, Hortonworks et MapR. Enfin, pour les développeurs, Business Analytics 5.0 propose d'autres services REST complémentaires qui simplifieront l'insertion de fonctions analytiques dans des applications fournies en mode SaaS.

Pentaho 5.0 Visual Analysis
Les outils d'analyse visuelle interactive ont également été améliorés dans la version 5.0 de Business Analytics.