La qualité de la réponse apportée par le moteur de recherche de Les Pages Jaunes est un élément essentiel de sa capacité à résister à la concurrence. Or les internautes ne vont pas se plaindre spontanément (dans la majorité des cas) d'une mauvaise réponse. Les Pages Jaunes a donc mis en place une analyse du comportement des internautes, traçable au travers des logs de connexion, pour savoir quand une requête reçoit ou non une réponse pertinente.

Dans un premier temps, Les Pages Jaunes a opté pour la solution SaaS de Fifty-Five. Emmanuel Thoorens, directeur search et Données chez SoLocal (ex-Groupe Pages Jaunes), se souvient : « avec cette solution, nous avons pu démontré la pertinence de l'approche DMP [Data Management Platform, NDLR] et big data. »

Maîtriser en interne les traitements big data

Mais cette solution étant en mode SaaS, Les Pages Jaunes souhaitait en changer, envoyer ses données critiques à l'extérieur suscitant des réticences bien compréhensibles. « Je n'ai aucun reproche à faire à Fifty-Five qui a parfaitement répondu à nos besoins mais nous voulions maîtriser en interne nos données et la compétence de traitement, deux éléments absolument critiques pour nous » précise Emmanuel Thoorens. En plus, la solution était amenée à évoluer pour réaliser d'autres analyses, par exemple sur les statistiques d'audiences.

Tout le travail préparatoire, notamment sur l'algorithmie, étant fait, Les Pages Jaunes ont cherché un autre DMP à installer en interne. Son choix s'est porté sur Dataiku et son DMP, Data Science Studio, installé sur une base Hadoop. Les consultants de Dataiku sont intervenus pour aider les équipes internes de Les Pages Jaunes à optimiser et maîtriser l'outil. La bascule définitive a eu lieu fin 2013.

Ce sont ainsi 10 To de données qui sont analysées pour optimiser les résultats de 20 millions de requêtes quotidiennes des internautes. L'outil est utilisé par une dizaine de spécialistes.