Pour sa troisième édition à Paris, le salon Big Data a réuni une bonne partie des acteurs du marché. Hortonworks partageait son stand avec Teradata, Cloudera et MapR recevaient dans leur pré carré, alors qu'IBM, HP ou encore EMC Pivotal répondaient aux questions sur leurs solutions. Et comme l'année dernière, les discussions portaient sur les affaires en cours et l'évangélisation toujours nécessaire auprès des directions métiers. Les cas d'utilisation sont très variés. Cela couvre l'analyse des données brutes, que ce soit des données opérationnelles, des données machines ou provenant de terminaux divers ou de systèmes de point de vente, ou encore les données sur le comportement des clients recueillies par le commerce électronique ou les systèmes de vente au détail.

« En France, nous sommes encore sur un grand nombre de POC, avec peu de budgets débloqués et beaucoup de stagiaires sur des projets reposant sur la version de base gratuite de MapR », nous a ainsi indiqué Xavier Guerin, en charge de l'Europe du Sud chez MapR. « Alors qu'ailleurs en Europe, j'ai une dizaine de dossiers à plus de 500 000 dollars, en France les dossiers en dépassent pas 100 000 dollars ». Certains projets déjà menés à bien comme celui du suivi des ventes en temps réel chez Darty avec Ysance mérite une exégèse. Une première application de la plate-forme datawarehouse du distributeur a ainsi migré de son environnement mainframe vers une solution Hadoop fournie par MapR. Cette application consolide en temps réel le chiffre d'affaires du site web et des magasins Darty, avec des détails par ligne de produits.

Abandonner progressivement le mainframe

Régis Koenig, directeur IT chez Darty, a ainsi témoigné de la conduite de ce projet sur le salon Big Data le 1er avril. Romain Chaumais, directeur du développement chez Ysance, nous a indiqué que l'objectif du distributeur était de réduire ses coûts de production sur mainframe et de consolider à termes toutes les données sur les clients, les stocks, l'historique des ventes et les informations issues du site web. « Il a fallu transférer et réécrire les workloads de la plate-forme mainframe vers Hadoop, pour consolider les données de performance commerciale ». C'est toutefois une première étape chez Darty, d'autres applications actuellement hébergées sur mainframe seront transférées pour transformer le vénérable distributeur en entreprise datacentric. Et Hadoop fera désormais office de socle pour le développement de ces autres applications métiers.

Sur le salon, Alexandre Vasseur, directeur avant-vente de Pivotal, est revenu sur la création de la compagnie, une joint-venture entre EMC et VMware avec une participation financière de General Electric (105 M$ soit 30% du capital). Pour mémoire, Pivotal a récupéré une partie des actifs d'EMC et de VMware à savoir, Greenplum et CloudFoundry, pour lancer la troisième génération plate-forme informatique chère à Paul Maritz : celle du cloud bien sûr. L'idée est d'exploiter la convergence actuelle entre les données, les applications et l'analytique pour accélérer l'utilisation de nouveaux scénarios dans le business des entreprises.

Le moteur Hawq au dessus de Hadoop

Depuis la fin de l'accord OEM avec MapR, Greenplum, qui conserve un marché important hérité des ventes réalisées avec les géants d'Internet, a décidé de directement travailler à partir de la distribution Apache Hadoop, avec le PaaS CloudFoundry. Ce faisant, Pivotal a ajouté quelques outils au dessus du code Open Source, en particulier un moteur SQL nommé Hawq, et associé une appliance spécialement conçue pour le traitement de très grandes quantités de données. Avec Pivotal Hadoop 2.0, l'éditeur a terminé l'intégration du in-memory, du streaming des données, de MapReduce et du SQL analytique. Forrester affirme que le principal avantage de la plateforme Hadoop de Pivotal est l'intégration entre sa distribution et les autres produits Pivotal, EMC et VMware. Pivotal peut bénéficier ainsi du support d'EMC et de VMware. Jusqu'à présent toutefois, la société dispose de moins de 100 installations, principalement des petits et moyens clients, selon Forrester. L'objectif de Pivotal est en fait de proposer une plate-forme de gestion des données bénéficiant d'un périmètre fonctionnel beaucoup plus large que celui de Hadoop. Et comme Hawq est une base de données SQL au dessus de HDFS, elle peut stocker et traiter des données structurées, en sus des données non-structurées.

Terminons ce tour d'horizon avec HP, même si un grand nombre d'intervenants méritaient également un détour sur le salon. Frédéric Lemeille, directeur des ventes Vertica, et Laurent Ridoux, CTO de la division Entreprises Service chez HP France, sont revenus sur l'actualité du géant de Palo Alto dans le domaine du big data. « Avec une quinzaine de clusters Hadoop vendus en 2013, HP accompagne un grand nombre de transformations dans les entreprises », nous a indiqué M. Ridoux. Au centre de solutions de Grenoble, HP pilote les projets Hadoop de ses clients - dans la banque notamment - pour passer du simple POC à la phase de production. Autre exemple de projet big data, celui monté avec un constructeur automobile pour récupérer et traiter les informations issues des voitures connectées, et proposer ensuite des interventions dans le réseau de concessionnaires pour assurer l'entretien courant des véhicules. Selon M. Ridoux, le taux de transformation atteint ici 40%.

5 Po de données traitées chaque jour chez Facebook avec Vertica

Pour accompagner ses clients sur leurs projets big data, HP met bien sûr en avant ses solutions maison Vertica, Autonomy et le framework Haven qui assure l'intégration et la connexion de HDFS vers Vertica pour bénéficier de capacités analytiques avancées. Une étude publiée en novembre dernier par IDC montre ainsi que les entreprises associent souvent Hadoop à d'autres bases de données pour l'analyse big data. Ainsi, près de 39 % des entreprises interrogées indiquent qu'elles utilisent des bases de données NoSQL comme HBase, Cassandra et MongoDB, et près de 36 % déclarent utiliser des bases de données MPP comme Greenplum et Vertica. « Cette situation souligne l'importance de la causalité et de la corrélation, dans lequel les ensembles de données structurées traditionnels sont analysés en conjonction avec des données non structurées provenant de sources nouvelles », indique le rapport. L'enquête confirme une analyse faite en novembre 2013 par le chef analytique de Facebook, Ken Rudin : lors d'une conférence à New York, celui-ci a déclaré que, « pour les entreprises cherchant à exploiter de grosses quantités de données, Hadoop ne suffit pas ». Facebook utilise d'ailleurs de concert les plates-formes Hadoop et Vertica pour traiter 5 Po de données par jour et analyser les performances de certains services.

Reste qu'en France, le big data est au même stade que le cloud il y a 5 ans. Un intérêt certain mais des budgets qui se débloquent toujours difficilement bien qu'un grand nombre de services informatiques raclent les fonds de tiroirs pour lancer des projets et convaincre au final les directions métiers.