Les utilisateurs de SGBD NoSQL et de systèmes de traitement des données de type CouchDB et Hadoop ont déployé ces nouvelles technologies pour leurs performances, leur évolutivité et leur flexibilité, si l'on revient sur les différents ateliers de la conférence NoSQL Now qui s'est déroulée cette semaine à San Jose, en Californie.

EMC, par exemple, utilise un mélange de bases de données traditionnelles et de SGBD NoSQL dernier cri pour analyser la perception de ses produits entreprise et grand public [Iomega notamment], a expliqué Subramanian Kartik, ingénieur chez EMC, durant une conversation avec notre confrère d'IDG News Service, Joab Jackson. Le procédé, appelé analyse des sentiments, implique la collecte d'informations sur une centaine de blogs consacré aux technologies IT, pour trouver des mentions sur EMC et ses produits, et évaluer si les références sont positives ou négatives, en analysant les mots utilisés dans le texte. 

Hadoop pour éliminer les données inutiles

Pour exécuter l'analyse, EMC rassemble le texte intégral de tous les blogs et pages web mentionnant EMC, et les compile dans une version de MapReduce fonctionnant sur sa plate-forme d'analyse de données Greenplum. Il utilise ensuite un système Hadoop pour éliminer les balises HTML et les mots inutiles, ce qui réduit considérablement l'ensemble de données. Les listes de mots sont transférées dans des bases de données SQL, où une analyse quantitative plus approfondie est réalisée. 

Les technologies NoSQL sont utiles pour résumer un ensemble énorme de données, tandis que les systèmes SQL peuvent être ensuite utilisés pour une analyse plus détaillée, a dit Subramanian Kartik, ajoutant encore que cette approche hybride peut être appliquée à d'autres domaines d'analyse. «Il y a toutes sortes d'informations à traiter, et à partir d'un certain point, vous devrez passer par la conversion de texte  en tokens numérotés pour faciliter leur utilisation [commande /tokenize], l'analyse et le traitement du langage naturel. La meilleure façon d'arriver à des mesures quantitatives significatives de ces données est de les mettre dans l'environnement que vous connaissez bien pour les manipuler, un environnement SQL » poursuit l'ingénieur d'EMC.