Le cru 2016 de Big Data Paris (7-8 mars au Palais des Congrès), le salon français qui fait le point sur les solutions et usages en matière de traitement et d'analyse en masse de données, avait cette année une saveur particulière, avec une avalanche de projets lancés dans les entreprises françaises. L'ère des POC et des tests semble donc arriver à terme pour laisser place à celles des mises en production qui se multiplient. Mais il ne faut pas croire pour autant que cela se fera pas sans difficulté : « Le big data est maintenant un post-ado plein d'énergie. Il faut parvenir à dompter cette énergie et la mettre au service de l'entreprise », a prévenu Mick Levy, directeur Business Innovation chez Business&Decision, cabinet spécialisé dans le conseil et l'accompagnement dans le domaine du décisionnel, BI et big data. 

S'il y a encore quelques mois, les exemples d'entreprises françaises pilotant des projets big data de grande envergure étaient encore discrets, cela ne semble plus vraiment le cas aujourd'hui à la lumière des nombreux cas d'usage évoqués lors de Big Data Paris 2016 et ce, dans une grande variété de secteurs. Ainsi, dans la banque, Crédit Mutuel Arkea a mis en place un moteur de recommandation temps réel pour multiplier les ventes rebonds et personnaliser en temps réel la navigation des internautes via Oracle OBIEE, tandis que Saint Gobain s'est porté vers la maintenance prédictive en environnement industriel avec remontée de données issues de capteurs connectés via la distribution Hadoop de Cloudera. Non loin de chez nous, le ministère belge des finances a mis en place une solution d'analytique prédictive des fraudes fournie par l'éditeur SAS qui l'a aidé - aux côtés d'autres actions - à récupérer pour 1 milliard d'euros de TVA. D'autres entreprises françaises sont également entrées dans le chaudron du big data, malheureusement sous couvert d'anonymat, comme cet acteur de la distribution disposant de 1200 points de ventes qui a pu modéliser et prévoir les chiffres d'affaires de ses magasins avec SAP Predictive Analytics, ou encore ce laboratoire pharmaceutique qui peut prédire avec une fiabilité de 90%, grâce à Cloudera (Hadoop, Spark et Flume), Knime (data science) et Qlik Sense (datavisualisation), la propagation du virus de la dingue en analysant les données de recherche géolocalisées en provenance de Google, Wikipedia et Twitter, couplées aux données météo.

Le sport n'échappe pas également au rouleau compresseur du big data en général et de l'analytique prédictif en particulier. « Les All Blacks ont récupéré les données de leurs matchs entre 2007 et 2011 », a expliqué Fabien Galthié, consultant chez Capgemini Consulting. « Cela leur a permis de comprendre comment untel s'est blessé et comment mieux performer. Plus on maitrise le turn over, plus on maitrise la connaissance de l'organisation et des joueurs. C'est pareil pour l'entreprise. »

MapR

Aurélien Goujet et Tugdual Grall, respectivement directeur Europe du Sud et évangéliste technique chez MapR. (crédit : LMI)

Editeurs, fournisseurs, cabinets de conseils et SSII se sont également déplacés en nombre sur Big Data Paris 2016 dont, sans surprise, les pionniers des distributions Hadoop comme Hortonworks, MapR ou encore Cloudera qui ont pu nous donner les dernières nouvelles concernant leurs offres ou évolutions inscrites sur leurs feuilles de route. « On travaille sur des systèmes basés sur les tags pour gagner en granularité sur les données et informations personnelles d'authentification. Cela vient compléter tout le travail fait avec l'intégration de la brique Apache Ranger pour apporter une couche de sécurité de bout en bout en authentification, gouvernance, auditabilité et chiffrement », nous a expliqué Abdelkrim Hadjidj, ingénieur solution chez Hortonworks.

Le support d'index secondaires pour les tables orientées documents et colonnes pressenti dans MapR 6.0

« Les gens essaient de voir quel avantage tirer d'Hadoop dans un contexte algorithmique et plus seulement sur 50 ou 100 To de données. Nous fournissons une plateforme out of the box dotée de toutes les fonctions en haute disponibilité, snapshot consistant, actif-actif et multitenant permettant une implémentation en production pour les entreprises », nous a indiqué Tugdual Grall, évangéliste technique de MapR. « Ce qui est important, c'est de connaître non seulement le type et la volumétrie des données qui sont accédées, mais surtout de savoir qui les consultent ». Pour ce qui est de la v6.0 de la distribution Hadoop de MapR, aucune date de sortie n'a pour l'instant été évoquée mais des mises à jour de l'écosystème, ainsi que le support de Microsoft SQL sur JSON, avec support d'index secondaires pour les tables orientées documents, mais aussi orientées colonnes, sont pressentis. « Nous allons intégrer des API de programmation et il n'y aura plus besoin d'enregistrer dans le fichier JSON, MapR devenant un endroit de stockage à part entière et pas seulement applicatif », a fait savoir M. Grall.

Cloudera

Romain Picard, directeur EMEA de Cloudera. (crédit : LMI)

Du côté de chez Cloudera, autre poids-lourd des distributions Hadoop open source, le curseur d'activité est également au beau fixe. La société, installée en France depuis 2014, revendique une hausse à trois chiffres de ses revenus sur un an et plus de 50 clients en Europe du Sud dont de très nombreux clients sur le territoire. « Nous proposons un service et du support Entreprise de niveau premium et allons continuer à développer notre offre en particulier pour répondre aux problématiques de cybersécurité et d'analyse prédictive comportementale », nous a indiqué Romain Picard, directeur EMEA de Cloudera. Parmi les toutes dernières annonces de l'éditeur, on retiendra des accords de partenariats sur des offres verticales avec Intel, Accenture et EMC ou encore un partenariat avec Argyle Data via une offre commune de lutte contre la fraude.