Développé par l’équipe Data de Linkedin pour les besoins internes du réseau social professionnel, WhereHows est un outil de découverte de données et de data lineage qui vient d'être publié sous la forme d'un projet open source sur GitHub. Il permet de créer un référentiel centralisé de métadonnées et un portail pour les processus, les utilisateurs et les connaissances associées aux données utilisées dans l’entreprise. Au sein de Linkedin, il fournit par exemple des informations sur plus de 25 000 jeux de données, uniquement sur ce qui vient de HDFS, ou encore sur les 22 000 jeux exploités par l’application Teradata, indique dans un billet l'un des experts de la firme.

A travers WhereHows, les métadonnées seront collectées depuis leurs multiples sources, standardisées et modélisées au sein du référentiel intégré, ce dernier pouvant ensuite être utilisé pour de multiples traitements analytiques. Le nom de l’outil - en français : où, comment - décrit ses deux axes d’intervention : où se trouvent les données ? comment sont-elles produites et consommées ?

Du crowdsourcing pour récupérer les informations sur les données

Dans le référentiel, WhereHows fait remonter les données, les organise et les associe au travers de deux interfaces : d’une part, via une application web utilisée pour leur découverte, pour retrouver l’origine (data lineage) et pour collaborer au sein d’une communauté, et d’autre part, via une API qui permettra d’automatiser les traitements. L'outil relie les données aux individus et aux processus et permet de récupérer des informations sur leur signification sur un mode crowdsourcing. L’outil fournit aussi des fonctions de gouvernance basée sur l’origine et le propriétaire des données. 

Les trois principales composantes de WhereHows sont le référentiel, un serveur web qui récupère les données à travers les deux interfaces et un serveur back-end qui va régulièrement chercher les métadonnées sur les autres systèmes.