Les utilisateurs de SGBD NoSQL et de systèmes de traitement des données de type CouchDB et Hadoop ont déployé ces nouvelles technologies pour leurs performances, leur évolutivité et leur flexibilité, si l'on revient sur les différents ateliers de la conférence NoSQL Now qui s'est déroulée cette semaine à San Jose, en Californie.

EMC, par exemple, utilise un mélange de bases de données traditionnelles et de SGBD NoSQL dernier cri pour analyser la perception de ses produits entreprise et grand public [Iomega notamment], a expliqué Subramanian Kartik, ingénieur chez EMC, durant une conversation avec notre confrère d'IDG News Service, Joab Jackson. Le procédé, appelé analyse des sentiments, implique la collecte d'informations sur une centaine de blogs consacré aux technologies IT, pour trouver des mentions sur EMC et ses produits, et évaluer si les références sont positives ou négatives, en analysant les mots utilisés dans le texte. 

Hadoop pour éliminer les données inutiles

Pour exécuter l'analyse, EMC rassemble le texte intégral de tous les blogs et pages web mentionnant EMC, et les compile dans une version de MapReduce fonctionnant sur sa plate-forme d'analyse de données Greenplum. Il utilise ensuite un système Hadoop pour éliminer les balises HTML et les mots inutiles, ce qui réduit considérablement l'ensemble de données. Les listes de mots sont transférées dans des bases de données SQL, où une analyse quantitative plus approfondie est réalisée. 

Les technologies NoSQL sont utiles pour résumer un ensemble énorme de données, tandis que les systèmes SQL peuvent être ensuite utilisés pour une analyse plus détaillée, a dit Subramanian Kartik, ajoutant encore que cette approche hybride peut être appliquée à d'autres domaines d'analyse. «Il y a toutes sortes d'informations à traiter, et à partir d'un certain point, vous devrez passer par la conversion de texte  en tokens numérotés pour faciliter leur utilisation [commande /tokenize], l'analyse et le traitement du langage naturel. La meilleure façon d'arriver à des mesures quantitatives significatives de ces données est de les mettre dans l'environnement que vous connaissez bien pour les manipuler, un environnement SQL » poursuit l'ingénieur d'EMC.

[[page]]

Pour les compagnies Internet comme AOL, les produits NoSQL offrent une vitesse de traitement et la capacité de gérer ce grand volume de données, ce qui ne serait pas possible avec une base de données relationnelle traditionnelle. La société utilise Hadoop et la base de données NoSQL CouchDB pour réaliser le ciblage de ses opérations publicitaires, a déclaré Matt Ingenthron, directeur des relations communautaires pour Couchbase, lors d'une autre conversation. 

La compagnie Internet a développé un système qui peut choisir d'afficher un ensemble d'annonces ciblées chaque fois qu'un utilisateur ouvre une page web d'AOL. Les annonces choisies reposent sur la base de données qu'AOL stocke sur les utilisateurs, avec un algorithme qui tente de prédire quelles pubs auront le plus de sens pour l'internaute. Et le processus doit être exécuté en moins de 40 millisecondes. La base de données est volumineuse, car les logs et les actions de tous les utilisateurs sont conservés sur les serveurs. Ils doivent être analysés et réassemblés pour construire un profil de chaque utilisateur. Les régies publicitaires web ont également mis en service un ensemble complexe de règles pour savoir combien payer une impression ou quels bandeaux publicitaires doivent être affichés sur le navigateur des internautes. 

Cette activité génère de 4 à 5 téraoctets de données par jour, et AOL a amassé 
plus de 600 pétaoctets de données opérationnelles. Le système conserve ainsi plus de 650 milliards d'entrées, avec notamment une pour chaque utilisateur, ainsi que des clés pour gérer d'autres aspects des données. Le système doit réagir à 600 000 événements de chaque seconde. 

Un cluster Hadoop pour résumer les données brutes

Et les flux de données qui proviennent de logs de serveurs Web et de sources extérieures augmentent encore la quantité d'information conservée. La plate-forme Hadoop Flume est utilisée ici pour intégrer toutes ces données. Ce cluster Hadoop exécute également une série de routines MapReduce pour analyser et résumer les données brutes. AOL utilise également CouchDB de Couchbase pour récupérer toutes sortes de données en provenance des flux RSS. Parce que CouchDB peut travailler sans écrire sur le disque, il peut être utilisé pour analyser rapidement les données avant de l'envoyer vers une autre étape. 

« Nous n'avions pas prévu de faire du ciblage publicitaire pour nos clients. Mais Couchbase a fini par combler ce besoin chez AOL et chez d'autres régies publicitaires » ajoute Matt Ingenthron. Le travail est «techniquement complexe et pose de nombreux défis pour traiter très rapidement les données ».

[[page]]
La maison d'édition scientifique et médicale Elsevier était à la recherche de plus souplesse quand elle a opté pour une solution XML, basée sur une base de données non relationnelle fournie pas Mark Logic, a déclaré le vice-président de la société Bradley Allen. Le monde de l'édition scientifique est de train de passer d'un modèle statique à un rythme plus dynamique, explique le dirigeant de l'éditeur. Au cours des siècles précédents, les ouvrages et les revues scientifiques ont servi de base à la connaissance universitaire. Et les bibliothèques conservaient une description des ouvrages, des auteurs et contributeurs et les références d'autres informations. Depuis que l'édition scientifique est passé au numérique, le papier reste encore le média dominant pour la transmission des données. « Nous sommes encore à l'époque du cheval et du carrosse », souligne en plaisantant Bradley Allen. 

Au fil du temps, la communication scientifique s'est fragmentée en plusieurs éléments individuels, qui peuvent être ensuite réutilisés dans de multiples publications. Les paragraphes ou même les affirmations peuvent être annotés et indexés, explique l'éditeur. Ils peuvent ensuite être rassemblés dans des oeuvres nouvelles et intégrés dans des applications, que les médecins peuvent consulter. Ils peuvent également être exploités dans le cadre d'analyses décisionnelles.

XML comme langage naturelle pour intégrer les données

Dans cet esprit, Elsevier est en train d'annoter les documents de ses revues afin qu'elles puissent être réutilisées plus facilement dans d'autres applications et services. Le choix d'une base de données XML a semblé naturel pour ce travail, a expliqué Bradley Allen. De nouveaux types de contenus peuvent être facilement ajoutés dans la base de données et le format permet à chaque composant d'être facilement réutilisé dans de nouvelles applications et services. 

Elsevier a lancé un certain nombre de nouveaux produits avec cette approche. L'un d'entre eux, baptisé SciVal et destiné aux universitaires qui résument l'activité du monde de l'édition au sein de leur institution, leur donne une estimation quantitative 
des publications d'une université ou d'un centre de recherches. Un autre service est Direct Science, un moteur de recherche en texte intégral pour les revues d'Elsevier.