L’édition 2017 du salon Big Data Paris, installée du 6 au 7 mars au Palais des Congrès de la Porte Maillot, a confirmé l’accélération qui s’est opérée dans l’univers des outils, technologies et services développés autour du traitement des données volumineuses, notamment du côté de l’intelligence artificielle. L’animation dans les allées, où s’exposait la diversité des offres, et la fréquentation des conférences attestaient de l’intérêt des visiteurs, en recherche de solutions ou porteurs de projets. Parmi les grands thèmes abordés, les défis de la cybersécurité dans l’environnement big data ont eu les honneurs du vaste amphithéâtre du lieu, de même que la protection des données personnelles sur fond de règlementation GDPR (en anglais, General data protection regulation). Pour s’adapter aux exigences du règlement européen qui entrera en vigueur au plus tard le 25 mai 2018, les entreprises vont devoir s’organiser différemment selon leur taille, a exposé hier Sophie Nerbonne, directrice de la conformité à la CNIL. Il y a 3 séries d’exigences à respecter : sur l’organisation interne, sur la méthode de vérification de la conformité des traitements à la loi Informatique et Libertés, et sur la gestion des plaintes et des incidents. En séance plénière, on s'est aussi penché sur la place du chief data officer, une fonction encore en création dans un contexte mouvant et instable, selon Benoît Binachon, associé du cabinet de recrutement Uman Partners spécialisé sur ces sujets.

 Recenser, communiquer et piloter sont les trois axes à mettre en place pour se préparer au règlement général sur la protection des données, a résumé Sophie Nerbonne, directrice de la conformité à la CNIL, sur Big Data Paris 2017. (crédit : M.G.)

Du côté des ateliers produits, on a pris concrètement la mesure des évolutions technologiques, démonstration technique à l’appui le cas échéant. D’importantes avancées ont été réalisées ces tout derniers mois dans le domaine de l’intelligence artificielle (IA) et de l’apprentissage machine. L’apport du cloud et des outils de traitement des big data ont été déterminants pour accélérer l’accès à ces technologies IA qui existent en réalité depuis plus de 30 ans, comme les réseaux de neurones ou bayésiens, a rappelé Gilles Venturi, DG de la SSII Soft Computing. Lors d’une session, il a expliqué comment tirer concrètement profit du deep learning pour des applications de marketing en s’appuyant sur techniques de calcul matriciel, d’analyse du signal sonore ou visuel, de reconnaissance de formes ou d’analyse de sentiments.

« Démultiplier la puissance de traitement en fonction des besoins, c’est - caricaturalement - ce qu’a apporté le big data en ouvrant de nouveaux champs d’application au machine learning », a-t-il indiqué. « Auparavant, nous étions très vite contraints par les capacités ». Le DG de Soft Computing a livré quelques exemples. Dans un centre d’appels, l’analyse vocale permet maintenant de comprendre en temps réel ce qui se dit, au fil de la discussion en moins de 10 secondes, et de faciliter le travail de l’opérateur. Autre exemple, dans le cadre d’un salon, l’analyse de photos permettra de voir dans quel état d’esprit arrivent les visiteurs. Une multitude d’API sont maintenant proposées aux entreprises et développeurs pour de multiples usages. En l’occurrence, ici, Gilles Venturi a recouru à Face API, une API accessible sur le cloud Azure de Microsoft.

Gilles Venturi de Soft Computing a présenté plusieurs démos de technologies deep learning pour la reconnaissance vocale, faciale et l'analyse de sentiments, ou encore les problématiques de veille. Certaines sont accessibles en ligne, notamment sur les sites de ClarifaiAllo-Media, Affectiva, IBM Bluemix (Tone Analyser), Watson News Explorer ou Microsoft.

D’autres API d’analyse de sentiments seront utilisées pour réaliser des pré-tests sur des publicités au moyen de webcams. Ce sont autant de signaux à analyser, sous réserver de respecter la vie privée, pour en tirer de la connaissance client. « Les algorithmes existaient déjà depuis longtemps, mais ce qui a changé depuis 5 ans, c’est la puissance de traitement à laquelle s’ajoute la disponibilité des API », souligne Gilles Venturi en citant celles d'IBM Watson, de Microsoft, d’AWS ou de Google, notamment. « Le 3ème paramètre facilitateur, c’est que l’on peut acquérir des données à la demande et gratuitement. Aujourd’hui, l’open data commence à se peupler de données qui, combinées entre elles, donnent des résultats très intéressants, permettant par exemple, à l’aide de données météo de prédéterminer le niveau de la demande à venir en matière de transport. Autant de moteurs de la démocratisation de ces technologies de deep learning. »

Apache Nifi, openRefine, SuperSet et H20.ai réunis

L’open source contribue aussi largement à la démocratisation des outils d'analyse des big data. Dans ce domaine, la start-up française Verteego a annoncé sur Big Data Paris la suite qu’elle a concoctée pour les data scientists. Celle-ci réunit des briques open source permettant « de traiter toute la chaîne de valeur de la data », a exposé Jeremy Fain, co-fondateur et président de la société. « Nous avons voulu constituer une suite 100% rassurante en choisissant les contributeurs open source les plus dynamiques sur l’orchestration des flux de données, le nettoyage automatique, la datavisualisation et l’analyse prédictive. La suite s’adresse à des data scientists de culture informatique ou à des statisticiens qui savent scripter », a-t-il décrit.

Pour tenir compte de la charge importante qui pèse sur les data scientists en entreprise, elle arrive entièrement packagée avec une interface homogène pour l’ensemble des briques et s’utilise en aval des distributions Hadoop disponibles. Au sein de la Verteego Data Suite, le choix s’est d’abord porté sur Apache Nifi (orchestration des flux) pour sa capacité à automatiser des workflows de traitement. « C’est un peu le carrefour de la suite, tout repasse par Nifi », explique Jeremy Fain. Sur le volet nettoyage des données, openRefine a été retenu. « Souvent les projets de data science aujourd’hui sont des projets ETL », rappelle le président de Verteego. La brique notebook est Jupyter, bien connue des data scientists, la partie datavisualisation est prise en charge par SuperSet, tandis que la partie prédictive revient à H20.ai qui apporte machine learning et deep learning.

La plateforme convergente de MapR en PaaS sur le cloud d'Outscale

Le salon a donné lieu à de nombreuses autres annonces de produits ou de partenariats. L’éditeur de distribution Hadoop MapR, par exemple, collabore avec le fournisseur de cloud Outscale autour d’une offre PaaS basée sur sa plateforme convergente. Celle-ci comporte Streams pour la gestion de flux, la base de données de MapR et son système de fichiers. Elle permettra aux entreprises de tester et déployer des applications sur un cluster de n’importe quelle taille avec en recourant à des API ouvertes HDFS, Spark, Drill et Posix NFS. Autre partenariat du côté de Cloudera qui s'associe à Claranet pour lancer une offre de services managés, sécurisée et évolutive, sur le cloud d'Amazon Web Services. Claranet propose un support 24/7 à travers un guichet unique pour répondre aux exigences opérationnelles d'un projet big data.

De son côté, SQLI a annoncé son offre Real World Data & Analytics destinée à exploiter les données issues des points de vente physiques dans le secteur du retail. Dans ce cadre, la SSII donne en exemple le projet mené avec Cointreau au travers de boîtiers What the Shop installés dans des bars identifiés comme pertinents pour l’analyse de données. Plus de 50 indicateurs ont été remontés pour apporter à Cointreau « une connaissance approfondie de la structure du trafic dans ces bars », explique SQLI dans un communiqué.

Enfin, parmi les tendances de fond signalées par certains exposants du salon, « les nouvelles générations de technologies big data intégrant le temps réel permettent de répondre à des besoins que les technologies traditionnelles du type Hadoop ne prenaient pas en charge », rappelle Rémi Hugonin, directeur marketing IoT et Analytics chez Orange Business Services. Selon lui, les visiteurs du salon Big Data Paris 2017 ont atteint un nouveau stade de maturité sur la mise en œuvre des solutions big data. « Pour répondre à leur besoin, nous leur conseillons aujourd’hui la mise en place d’architectures mixtes, combinant structure traditionnelle et une architecture permettant la gestion en temps réel, comme la technologie Spark par exemple », nous a-t-il communiqué par mail. « Mais cette tendance n’est pas encore totalement répandue dans les entreprises mettant en place leurs premiers projets big data ». Selon lui, le rôle des intégrateurs est d’adopter une démarche pédagogique en proposant des phases pilote sur ce type d’architecture. « Ces phases pilotes sont aujourd’hui devenues systématiques dans notre démarche », assure-t-il.