La start-up française Dataiku fait évoluer son offre phare Data Science Studio. Après avoir lancé au printemps dernier la v2, voici venir la dernière itération de sa solution permettant de construire des modèles de données, à savoir la v2.1. Parmi les principaux ajouts de cette version, on trouve en particulier l'intégration du moteur de traitement Spark qui creuse son trou en matière de système de calcul distribué par rapport à Hadoop MapReduce. « Dans le cadre des recettes visuelles, le moteur Spark et Spark SQL permettent de faire des jointures et des agrégations beaucoup plus rapidement qu'avec un moteur Hadoop traditionnel », annonce la jeune pousse dans un communiqué. « Intégré au sein de Data Science Studio, PySpark et SparkR exposent le modèle de programmation de Spark à Python et R, permettant donc aux utilisateurs de Python ou R de faire des transformations sur des volumes de données beaucoup plus importants en environnement Spark ».

Les utilisateurs de DSS 2.1 ont en outre désormais la possibilité d'exécuter des modèles sur l'ensemble de leurs données en choisissant les librairies de machine learning tel que Spark MLlib ou encore Python Scikit Learn. « Dans un contexte d'évolution permanente des technologies, des frameworks, des langages et dialectes (Py, R, Pig, Hive, SQL, Spark...), DSS 2.1 fournit une interface unifiée entre ces différents frameworks permettant aux utilisateurs de se familiariser avec ces technologies à leur rythme », fait également savoir Dataiku.