Avec la version 5.1 de sa plateforme d'intégration et d'analyse de données, Pentaho cherche à simplifier le traitement des big data, tant pour les développeurs que pour les data scientists. L'éditeur a notamment fait un pas de plus vers la base MongoDB. Il permet maintenant d'analyser directement les données de la base Open Source sans développer de code ni devoir préparer les données séparément. Du côté de l'utilisation de Hadoop, l'intégration de Yarn à PDI (Pentaho Data Integration) permet aux développeurs d'ajuster les ressources du framework de traitement big data sans avoir à développer pour MapReduce.

Par ailleurs, pour les utilisateurs spécialistes des données, il sort le Pack Data Science qui fonctionne un peu à la manière d'un assistant et permet de bâtir des représentations à 360 degrés des vues clients en associant plusieurs sources de données, celles de MongoDB et celles provenant de réseaux sociaux, par exemple. Pour faciliter la préparation des données, le moteur d'ETL, Data Integration (PDI) se complète d'un exécuteur de scripts R et des outils Weka Scoring et Weka Forecasting, le premier permet d'appliquer des modèles de classification, de regroupement ou de régression construit avec le logiciel Open Source Weka et le deuxième de tirer parti de ses modèles prévisionnels.