NoSQL, bases de données en mémoire, etc.

Pour la structure de stockage, les bases NoSQL sont faites pour stocker un grand nombre d'interactions. « Elles sont vraiment faites pour adresser ces besoins de rapidité. C'est parfait pour l'analyse de graphiques et de documents ».  Bien sûr, l'analyste voit aussi un « gros futur » dans la base de données en mémoire, telle que la propose notamment SAP avec son appliance HANA, présentée par la suite par Nicolas Sekkaki, directeur général de SAP France. « D'ici 5 ans, nombre d'applications traditionnelles vont s'appuyer sur ces bases en mémoire parce que l'on va s'affranchir des contraintes historiques liées à la façon dont on écrivait dans les bases de données. Jusque-là, on gérait les I/O (entrées/sorties), maintenant, on utilise la même structure de données pour le transactionnel et l'analyse décisionnelle. On va pouvoir lier les données et faire ce lien au vol ». Pour Roxane Edjlali, le datawarehouse d'entreprise devra évoluer vers une infrastructure dédiée aux cas d'usage : « Le CEP pour la recherche d'information, les bases de données en mémoire pour la rapidité des analyses et, puis peut-être des systèmes Hadoop et des environnements HDFS pour chercher des motifs dans de gros volumes d'informations ».

En conclusion, les Big Data constituent une vraie problématique. Le « vaporware » une fois dissipé, on devrait voir se détacher de vrais cas d'usage. « Cherchez des projets pour vous y essayer, conseille Roxane Edjlali. Mais considérez bien les 12 dimensions. Il ne s'agit pas de tout faire ».

Un projet Big Data à La Poste

Au cours de la matinée, l'USF avait également convié Denis Weiss, DSI Industrie de La Poste. Ce dernier a expliqué comment leur approche des Big Data peut leur fournir des infos précises sur ce qui se passe dans le système de tri du courrier. Les chiffres évoquent sans peine l'univers des Big Data : 90 millions de tris effectués tous les jours, 30 millions d'adresses distribuées, 3 500 établissements de distribution, 70 000 tournées par jour et 60 millions d'objets distribués. « Nous gardons quinze jours d'historique et un an d'archives en haute disponibilité », a relaté le DSI. « Nous avons mis en place une approche NoSQL avec un stockage des données en mode clef-valeur et un codage en XML. »

Deux millions de données sont indexées et deux moteurs de recherche utilisés : Exalead et l'outil Open Source Solr. Une deuxième approche s'appuie sur une logique MOLAP avec la base de données en colonnes InfiniDB. Les requêtes multidimensionnelles en ligne passent par Mondrian/JPivot. « Ces deux applications, l'une en temps réel, l'autre comme outil de pilotage, nous ont permis de rendre un service que l'on ne pouvait rendre autrement ».

Au même moment, un salon consacré aux Big Data s'est également tenu cette semaine à la Cité Universitaire.

(*) Les douze axes de Gartner pour appréhender les Big Data : volume, vélocité, variété, complexité, périssabilité, fidélité, validation, corrélation, classification, technologie, contrats, utilisation généralisée.

Denis Weiss, DSI Industrie de La Poste
Denis Weiss, DSI Industrie de La Poste, intervenant au Printemps de l'USF (crédit photo : Nicolas Fagot)