Pour faire parler des données, rien ne vaut une panoplie d'outils de visualisation graphique. Il en existe de nombreux, notamment destinés aux professionnels versés dans l'analyse statistique. Mais leur prix, généralement élevé, ne convient pas aux utilisateurs moins spécialisés qui n'ont besoin qu'occasionnellement d'afficher des données sous une forme graphique. Or, il existe, pour ceux dont le budget est limité, un nombre surprenant d'outils très intéressants pour la visualisation et l'analyse de données, accessibles gratuitement. Au printemps dernier, Sharon Machlis, de Computerworld, en a listé plus de vingt, qu'elle a répartis en neuf catégories : nettoyage de données, analyse statistique, outils et services de visualisation (1ère partie), outils de développement, SIG, analyse de données temporelles, nuages de mots, visualisation de données relationnelles (2ème partie publiée le 5 janvier). Ils permettent de manipuler les données et de les afficher à travers de multiples représentations graphiques. Particulièrement utiles pour faire apparaître des modèles ou des tendances. La plupart d'entre eux avaient été présentés lors de la conférence Computer-Assisted Reporting (la prochaine conférence CAR aura lieu du 23 au 26 février 2012, à Saint-Louis, Missouri). 

-  Nettoyage de données

Avant toute analyse ou visualisation, les données ont souvent besoin d'être nettoyées, afin de standardiser leur transcription ou de corriger des fautes. Dans une même base, les noms de ville ou de clients, par exemple, peuvent être avoir été saisis de différentes façons (Net York, New York City, NY..., Société Lambda, Lambda, Sté Lambda, Lambda Sarl...). On trouve deux outils destinés à cet usage : DataWrangler et Google Refine. 

1 - DataWrangler : uniquement en ligne

Ce service web du groupe Visualization de l'Université de Stanford est conçu pour nettoyer et réarranger les données sous une forme pouvant être reconnues par d'autres logiciels : les tableurs, mais aussi un langage tel que « R », ou des logiciels commerciaux comme Tableau ou Open Source comme Protovis. En cliquant sur une ligne ou une colonne, cet outil va suggérer des modifications. Par exemple, il proposera de supprimer les lignes vides. Il conserve l'historique qui facilite un retour en arrière (undo), une fonctionnalité également disponible dans Google Refine). 

Computerworld souligne que la correction des textes se fait simplement. En revanche, le service étant disponible en ligne (à partir de tout navigateur), cela implique que les données transitent vers un site externe, ce qui le rend inapproprié pour des informations internes sensibles. Une version « poste de travail » est prévue. Autre élément important, l'outil est toujours en cours de développement.


DataWrangler (cliquer ici pour agrandir l'image)

Niveau de compétences requis : débutant avancé.
Fonctionne sur tout navigateur web.
En savoir plus : http://vis.stanford.edu/wrangler/

2 - Google Refine
: comme un tableur

Il ressemble à un tableur pour examiner à la fois les données numériques et alphanumériques, mais à l'inverse du tableur, il ne permet pas d'effectuer des calculs. Comme Excel, il peut importer et exporter dans différents formats, incluant les fichiers tabulés, textes, Excel, XML et JSON.

Refine intègre plusieurs algorithmes retrouvant les mots orthographiés différemment mais qui devraient en fait être regroupés. Il y a aussi des options pour passer rapidement en revue les données numériques. Ces fonctionnalités peuvent pointer des anomalies pouvant résulter d'erreurs de saisie, telles que 800 000 dollars à la place de 80 000 dollars pour un salaire par exemple, ou mettre à jour d'autres incohérences. Inconvénient, si le jeu de données est volumineux, son examen peut prendre un certain temps. A noter que Refine propose aussi des outils de tri et de filtre.


Google Refine (cliquer ici pour agrandir l'image)

Niveau de compétences requis : débutant avancé. La connaissance des concepts d'analyse de données est plus importante que la prouesse technique. Les utilisateurs avancés d'Excel qui ont l'habitude du nettoyage de données devraient être à l'aise avec cet outil.
Google Refine fonctionne sur Windows, Mac OS X et Linux. 
En savoir plus : http://code.google.com/p/google-refine/ [[page]]


-  Analyse statistique

3 - Le projet R : un langage pour l'univers des statistiques

Projet GNU similaire au langage S, développé par les Laboratoires Bell (anciennement AT&T, désormais Lucent Technologies) par le statisticien John Chambers. Il peut être considéré comme une mise en oeuvre différente de S, même s'il y a d'importantes différences, une grande partie du code écrit pour S fonctionnant de la même façon sous R, explique-t-on sur le site du projet. Il compile et fonctionne sur de nombreuses plateformes Unix, ainsi que sous Windows et MacOS. S'il s'agit de déterminer des moyennes, des valeurs médianes, des écarts types ou des corrélations, R peut le faire et bien plus encore, en incluant les modèles linéaires, les modèles de régression non linéaires, l'analyse des séries chronologiques, les tests paramétriques et non paramétriques, les classifications, le lissage, indique encore le site web. « R » fournit aussi nombre de représentations graphiques, ainsi que des capacités d'analyse spatiale, et se complète de nombreux add-ons.

Inconvénient, l'environnement utilise des lignes de commandes, ce qui nécessite un minimum d'apprentissage pour connaître les commandes à mettre en oeuvre. Pour les utilisateurs qui souhaitent disposer d'une interface graphique, Peter Aldhous, du bureau de San Francisco du magazine New Scientist, suggère RExcel qui propose d'accéder au moteur de R à partir d'Excel. On peut rencontrer une autre limite avec les jeux de données trop importants. Pour la franchir, il existe une option commerciale de la plateforme, fournie par Revolution Analytics.


L'environnement R (cliquer ici pour agrandir l'image) 
Niveau de compétences : intermédiaire ou avancé. La connaissance des statistiques facilite la prise en main.
R fonctionne sur Linux, Mac OS X, Unix, Windows XP et ultérieurs.
En savoir plus : le projet R
Premiers pas avec R, de Peter Aldhous


- Outils et services de visualisation

Ces outils offrent différentes options de visualisation. Certains se cantonnent aux graphiques conventionnels (représentations sectorielles, histogrammes...), mais la plupart proposent un éventail de choix supplémentaires tels que les Treemap pour afficher les données hiérarchisées ou les nuages de mots. Quelques-uns disposent aussi de représentations géographiques. Dans ce domaine, il existe toutefois des logiciels gratuits spécifiques.

4 - Google Fusion Tables : simple à utiliser et personnalisable

C'est l'une des plus simples façons de transformer des données en graphiques. On met en ligne son fichier (dans différents formats) et on choisit comment l'afficher : sous forme de tableau, de carte, de bargraphe, de camembert, de « heat map », de diagramme de dispersion, d'historique, d'animation... C'est assez personnalisable. Il est notamment possible de changer les icônes des cartes et le style des fenêtres d'information. Fusion Tables comporte aussi des fonctions d'édition de données, quoi que cela devient vite fastidieux dès que l'on commence à devoir modifier au-delà que quelques cellules. On peut aussi faire des jointures de table (important quand les données à afficher se trouvent dans différentes tables), filtrer, trier, ajouter des colonnes et commenter les données.


Un exemple d'utilisation de Fusion Tables (source WNYC)

Niveau de compétences : débutant.
S'utilise avec tout navigateur web.
En savoir plus : Google Fusion Tables

5 - Impure : un peu comme un Yahoo Pipes

Impure est une sorte de « Yahoo Pipes » adapté à la visualisation de données, conçu pour créer de nombreux types de représentations graphiques très peaufinées en utilisant un espace de travail de type « drag and drop ». Le service inclut une bibliothèque d'objets et de méthodes. Et, comme avec Yahoo Pipes, il permet de cliquer et déplacer pour connecter des modules de façon à ce que les « sorties » (output) de l'une deviennent les « entrées » (input) d'une autre. L'outil a été développé par la société d'analyse espagnole Bestiario.
Impure présente l'intérêt d'offrir une interface très visuelle pour préparer les représentations graphiques, ce qui n'est pas aussi fréquent qu'on pourrait s'y attendre. Il offre une interface élégante et de nombreux modules, dont quelques API (interfaces de programmation) destinées à extraire des données du Web.

On peut chercher par mots-clés (numeric, tables, nodes, geometry, map) ses nombreux types de visualisation. Et bien qu'il sauvegarde votre espace de travail sur le Web, il est possible de copier et conserver le code localement, afin de sauvegarder son travail et de mettre à jour ses propres bibliothèques de code.
Attention, les utilisateurs d'Impure devront faire un effort d'apprentissage malgré les fonctionnalités drag and drop. La documentation est quelquefois détaillée, mais pas toujours. Une fois que l'espace de travail est sauvegardé, il devient public sur le web, bien qu'il soit difficile de le retrouver sans l'URL.


Impure (cliquer ici pour agrandir l'image)

Niveau de compétences : intermédiaire.
Fonctionne sur tout navigateur.
En savoir plus : sur Impure
[[page]]

6 - Many Eyes : facile d'accès et bien documenté

Le projet Many Eyes d'IBM est l'un des pionniers de la visualisation de données sur le web. Il est très facile à utiliser et très bien documenté, incluant des suggestions sur le type de représentations qu'il convient d'utiliser suivant les cas. Many Eyes comprend plus d'une douzaine d'options de rendu, depuis les graphiques sectoriels, jusqu'aux nuages de mots, en passant par les treemaps, les diagrammes relationnels, plots, ainsi que quelques cartes géographiques.

Il faudra ouvrir un compte gratuit pour mettre ses données en ligne. Le formatage est basique : pour la plupart des visualisations, les données doivent être dans un fichier texte avec séparation par tabulateurs, comportant des têtes de colonnes sur la première ligne. Les résultats offerts apparaissent bien plus sophistiqués que ce que l'on aurait pu attendre au regard des efforts déployés pour les créer. La liste de visualisations possible s'accompagne d'explications pour déterminer celles qui sont les plus appropriées suivant le contexte.

Inconvénient : vos jeux de données apparaissent publiquement sur le site Many Eyes et peuvent être facilement téléchargées, partagées, republiées et commentées par d'autres, ainsi que le projet soutenu par IBM encourage à le faire. Autre limite : la personnalisation est limitée, de même que la taille du fichier, qui ne peut pas dépasser 5 Mo.


Many Eyes (cliquer ici pour agrandir l'image)

Niveau de compétences : débutants. 
Fonctionne sur les navigateurs Java et ceux pouvant afficher en Flash.
En savoir plus : sur Many Eyes

7 - Tableau Public : personnalisable et interactif

Transforme les données en diverses visualisations, simples ou plus complexes. Les champs peuvent être glissés/déplacés sur l'espace de travail et le logiciel peut alors suggérer un type de visualisation, puis personnaliser tous les éléments : étiquettes, infobulles, taille, filtres interactifs, légendes... L'un des intérêts de l'outil réside dans les différentes façons d'afficher des données interactives sur lesquelles un filtre de recherche peut agir sur de nombreux graphiques, diagrammes et cartes. Les tables sous-jacentes peuvent également être jointes. Et une fois que vous savez comment fonctionne le logiciel, le maniement de son interface « drag and drop » se fait bien plus rapidement que de coder en JavaScript ou en R. Ce qui incite à essayer davantage de scénarios avec les données. En outre, on peut facilement effectuer des calculs sur les données au sein du logiciel.

Dans cette version gratuite du logiciel de BI de Tableau Software, les données doivent résider sur le site de Tableau. La mise à jour vers la version desktop coûte environ 1 000 dollars. Par ailleurs, sans surprise, les fonctionnalités gratuites ont malgré tout un coût : le temps d'apprentissage comparé à, par exemple, Fusion Tables. Même avec l'interface drag and drop, cela prend plus d'une heure ou deux pour savoir se servir du logiciel, à moins de réaliser d'abord des graphiques simples.


Tableau Public (cliquer ici pour agrandir l'image)

Niveau de compétences : débutant avancé ou intermédiaire.
Fonctionne sur Windows 7, Vista, XP, 2003, Server 2008 et 2003.
En savoir plus : quelques vidéos de formation

8 - VIDI : des graphiques exportables en HTML

Quoi que le site VIDI le présente comme un outil pour le système de gestion de contenus Drupal, les graphiques créés par l'assistant de visualisation du site peuvent être utilisés sur n'importe quelle page HTML sans recourir à Drupal. Une fois les données en ligne, on sélectionne le type de visualisation retenu, on personnalise un peu et le graphique est prêt à être utilisé via un code embarqué auto-généré (utilisant une balise iframe, pas de JavaScript, ni de Flash).

C'est à peu près aussi facile que Many Eyes, avec davantage d'options cartographiques et sans être obligé de rendre ses données publiques. Quelques écrans fournissent rapidement des explications sur chaque type de représentation graphique et on accède à différentes couleurs de personnalisation. La taille limite des fichiers monte à 30 Mo, soit six fois plus qu'avec Many Eyes.


VIDI, source Computerworld (cliquer ici pour agrandir l'image)

Niveau de compétences : débutants.
Fonctionne avec tout navigateur web.
En savoir plus : http://www.dataviz.org/

9 - Zoho Reports : pour les analyses métiers

L'un des plus orienté « analyse métier » de sa catégorie. Zoho Reports peut récupérer les données venant de différents formats de fichiers ou directement d'une base de données et les transformer en graphiques sectoriels, tableaux et tables pivots, autant de formats familiers aux utilisateurs de tableurs.
Il présente l'intérêt de pouvoir programmer des importations de données depuis des sources provenant du web. On peut faire des requêtes sur les données en utilisant SQL et les transformer en représentations graphiques. Le service permet de faire de la publication web et du partage. Il faudra toutefois disposer d'un compte payant si plus de deux utilisateurs doivent accéder aux données. 

Inconvénient : les options de visualisation sont limitées. L'interaction de données avec le web peut être lente quelquefois. La taille des fichiers est limitée à 10 Mo.


Zoho Reports (cliquer ici pour agrandir l'image)

Niveau de compétences : débutants avancés.
Fonctionne sur tout navigateur. 
En savoir plus : http://reports.zoho.com/ZDBSampleDatabases.cc


Pour lire la 2ème partie « 22 outils gratuits pour visualiser et analyser les données »