Il y a quelques jours, Google a ouvert la bêta publique de Cloud Dataprep, le service de data wrangling qu’il a développé en collaboration avec l’éditeur californien Trifacta, spécialiste du domaine. Le data wrangling permet de préparer des données pour l’analyse en définissant des règles de validation qui permettent d'en accélérer le nettoyage, la mise en forme ou l'enrichissement. Par rapport aux outils de transformation de type ETL, souvent pris en charge par les équipes IT, la solution de Trifacta s’adresse aussi à ceux qui connaissent le mieux les données qui vont être analysées, qu’ils soient data scientists ou utilisateurs métiers. Elle propose d’explorer visuellement les sources et de définir les règles de nettoyage et de transformation de façon interactive à partir d’un échantillon. Un workflow intuitif accélère ce processus.

Le service ainsi proposé par Google permet de se connecter aux différentes sources, d’identifier le type de données, de repérer les éventuelles anomalies et de suggérer des transformations. Un pipeline est ensuite créé dans Cloud Dataflow pour nettoyer et exporter les données vers le datawarehouse BigQuery du cloud public ou vers d’autres destinations. DataPrep est également intégré avec Cloud Storage. Proposé comme un service managé, il ne requiert ni configuration, ni administration de la part des entreprises et recourt à la gestion des accès et identités de Google. Les utilisateurs qui exploitent déjà d’autres services du fournisseur peuvent donc y accéder avec les mêmes identifiants et mots de passe, en retrouvant les permissions et rôles déjà définis à travers Google IAM.

L’utilisation de Cloud Dataprep pour préparer un flux de transformation de données est gratuit (une fois ce flux défini, l’échantillon de données traité peut être exporté). Ce qui est facturé, c’est l’exécution du flux de transformation qui utilise Cloud Dataflow. Quelques milliers d'utilisateurs ont déjà testé le service depuis l'annonce du partenariat avec Trifacta et l'ouverture de la bêta privée en mars dernier.