Pour les compagnies Internet comme AOL, les produits NoSQL offrent une vitesse de traitement et la capacité de gérer ce grand volume de données, ce qui ne serait pas possible avec une base de données relationnelle traditionnelle. La société utilise Hadoop et la base de données NoSQL CouchDB pour réaliser le ciblage de ses opérations publicitaires, a déclaré Matt Ingenthron, directeur des relations communautaires pour Couchbase, lors d'une autre conversation. 

La compagnie Internet a développé un système qui peut choisir d'afficher un ensemble d'annonces ciblées chaque fois qu'un utilisateur ouvre une page web d'AOL. Les annonces choisies reposent sur la base de données qu'AOL stocke sur les utilisateurs, avec un algorithme qui tente de prédire quelles pubs auront le plus de sens pour l'internaute. Et le processus doit être exécuté en moins de 40 millisecondes. La base de données est volumineuse, car les logs et les actions de tous les utilisateurs sont conservés sur les serveurs. Ils doivent être analysés et réassemblés pour construire un profil de chaque utilisateur. Les régies publicitaires web ont également mis en service un ensemble complexe de règles pour savoir combien payer une impression ou quels bandeaux publicitaires doivent être affichés sur le navigateur des internautes. 

Cette activité génère de 4 à 5 téraoctets de données par jour, et AOL a amassé 
plus de 600 pétaoctets de données opérationnelles. Le système conserve ainsi plus de 650 milliards d'entrées, avec notamment une pour chaque utilisateur, ainsi que des clés pour gérer d'autres aspects des données. Le système doit réagir à 600 000 événements de chaque seconde. 

Un cluster Hadoop pour résumer les données brutes

Et les flux de données qui proviennent de logs de serveurs Web et de sources extérieures augmentent encore la quantité d'information conservée. La plate-forme Hadoop Flume est utilisée ici pour intégrer toutes ces données. Ce cluster Hadoop exécute également une série de routines MapReduce pour analyser et résumer les données brutes. AOL utilise également CouchDB de Couchbase pour récupérer toutes sortes de données en provenance des flux RSS. Parce que CouchDB peut travailler sans écrire sur le disque, il peut être utilisé pour analyser rapidement les données avant de l'envoyer vers une autre étape. 

« Nous n'avions pas prévu de faire du ciblage publicitaire pour nos clients. Mais Couchbase a fini par combler ce besoin chez AOL et chez d'autres régies publicitaires » ajoute Matt Ingenthron. Le travail est «techniquement complexe et pose de nombreux défis pour traiter très rapidement les données ».