Pour sa 8ème édition, le salon a attiré 16 500 participants, soit 8,5% de plus que l’an dernier. Entre fournisseurs IT historiques, éditeurs spécialisés et start-ups, ateliers et témoignages d’utilisateurs, les solutions présentées couvraient assez largement l’état de l’art du domaine. D’emblée, le choix ne manque pas entre les plateformes de gestion des données où l’on retrouvait les offres de Talend, Cloudera, Dataiku, Saagie ou Forepaas, pour ne citer qu’eux, mais aussi au fil des allées, des offres plus récentes comme celles de Soyhuce, une société de conseil basée à Caen qui intègre un laboratoire en algorithmie et data science, ou de Skapane, l’une des start-ups du pôle lillois EuraTechnologies.

Talend inaugure dans quelques jours son nouveau centre de R&D nantais de 2 600 m2. Depuis 2016, il a déjà recruté 120 ingénieurs dans la région et compte porter cet effectif à 250 personnes d’ici 3 ans. Chez Cloudera, dont le stand arborait une nouvelle identité visuelle après la fusion avec Hortonworks, l’heure est au rapprochement des logiciels. Dès maintenant, les deux équipes font des ventes croisées, l’offre de Cloudera ayant récupéré Data Flow pour gérer les données en mouvement tandis qu’Hortonworks s’enrichit de Data Science Workbench pour les développements ML/IA. L'éditeur tient en ce moment même sa conférence DataWorks à Barcelone et prépare sa Data Platform. Un certain nombre de clients ont commencé à tester les autres briques, notamment l’outil de gestion centralisé d’ingestion de données. « Sur le marché français, il y avait une forte demande de venir compléter leurs plateformes avec des composants qu’ils n’avaient pas », nous a confirmé Denis Fraval, responsable ventes et ingénierie EMEA de Cloudera.

Dataiku duplique les étapes de préparation par copier/coller

Du côté de Dataiku, qui a levé 88 M€ en décembre, l’actualité porte sur la version 5.1 de DSS, sa plateforme d’analytique et développement IA sortie en janvier. Elle permet maintenant de dupliquer des étapes de préparation par copier-coller visuel, au sein d’un même programme, entre programmes ou même entre instances DSS. Il est également possible de dupliquer un projet DSS. La plateforme intègre RStudio, Sublime Text ou PyCharm et un plug-in lui a été ajouté pour gérer les règles GDPR sur les projets. A l’automne, la v.5 avait renforcé les capacités de deep learning, la bibliothèque Keras permettant de bâtir un modèle personnalisé à l’aide des outils d’apprentissage machine de Dataiku. Saagie a pour sa part convié la Matmut à présenter le Data Lab conçu à l’aide de sa solution. Il y a peu, RATP avait déjà témoigné sur un autre projet réalisé avec sa plateforme. Le PaaS de Saagie conçu pour mettre rapidement en production des applications métiers exploitant de l’IA vient d'étendre ses fonctions de collaboration entre les parties prenantes d’un projet (IT, DSI, data scientists, data analysts) et son approche devops pour migrer de l’espace de test à la production.

Au gré des stands de Big Data Paris, d’autres nouveautés s’exposaient. Le Caennais Soyhuce a sorti cette année sa plateforme OctoData issue de sa R&D qui réunit des briques Hadoop, Kafka, Spark, Cassandra, Zeppelin, Elasticsearch et Kibana. A partir d’une interface de création de projet big data, l’utilisateur crée son pipeline de données et définit les droits d’accès au data lake. Pour les fonctions d’apprentissage machine, la solution (qui peut s’exploiter dans le cloud - Azure, AWS ou CGP) se raccorde à d’autres solutions, notamment celle de Dataiku, nous a précisé Nicolas Guy, président fondateur de Soyhuce.

Nicolas Guy, président fondateur de Soyhuce.

Quelques allées plus loin, la start-up lilloise Skapane, constituée il y a 4 ans, met en place des algorithmes dédiés aux métiers. Elle propose des offres verticales autour de sa plateforme big data (Spark, Hadoop, Zepellin, Hbase, Tensorflow, Superset) : lutte contre la fraude ou le blanchiment, reconnaissance faciale ou d’objets, etc. Sa solution est fournie on-premise ou dans un cloud privé hébergé en France sur deux sites actifs-actifs, nous a indiqué Fatima Lgarch, business manager chez Skapane.

Anasen transforme les graphiques en interface

A quelques stands de là, Tom Sawyer Software intervient également sur la détection de fraude avec son SDK Perspectives qui permet de développer des applications de visualisation de données en mode graphe. L’éditeur, basé à Berkeley (Californie), affiche pour sa part une expérience de 27 années dans son domaine. Dans le secteur banque/assurance, sa technologie de graphe est utilisée pour découvrir des connexions cachées entre individus. Elle a notamment été mise à profit dans l’affaire des Panama Papers. Le constructeur aéronautique Airbus l’a adopté pour créer l’application d’analyse visuelle collaborative GAIA. Celle-ci permet lors des étapes de production des avions, « de visualiser des données connectées et de synchroniser des vues logiques et physiques des différentes pièces d’un avion », avait expliqué l’avionneur sur l’édition 2018 de Big Data Paris.

Parmi les spécialistes de la visualisation de données, Anasen s’adresse aux utilisateurs métiers. « Nous avons transformé les graphiques en interface, la visualisation, c’est l’étape zéro », nous a exposé Naim Kosayyer, co-fondateur et PDG de la la start-up. Anasen est une app web qui permet aux utilisateurs métiers de modéliser les données directement à partir de graphiques interactifs. Les données sont déplacées directement sur le graphique à la souris (les éléments déplacés sont transformées en code par l’application), ce qui permet aux utilisateurs d’identifier des tendances, par exemple un calcul de corrélation avec retard sur une courbe, ainsi que nous l’a présenté Naim Kosayyer. Le ministère des Armées, Arcelor Mittal, Orange ou Bouygues Construction figurent parmi les clients de cette start-up repérée par l’investisseur Y Combinator et par le programme Horizon 2020 SME Instrument de l’Union européenne.

Explorer les données en réalité augmentée

La société DataKlub, pilotée par Tony Alibelli (3ème à partir de la gauche) avec la double casquette CEO/CTO, tente l'exploration des données en 3D avec Hololens. (Crédit : LMI/MG)

Sur Big Data Paris, on pouvait aussi visualiser les données avec le casque de réalité augmentée Hololens sur le stand de DataKlub, intégrateur de la technologie Splunk. Son activité d’expertise autour de l’outil d’analyse des données machine a permis à la société de développer un mode de représentation intuitif. « Nous changeons la façon d’interroger les données en passant dans l’immersif, par exemple pour faire de l’analyse d’impact en cas d’incident », nous a expliqué Tony Alibelli, CEO-CTO de DataKlub. Les alertes récupérées dans Splunk, telles que des connexions suspectes sur des adresses IP, seront par exemple affichées sur une mappemonde. L’approche est actuellement explorée par Société Générale qui a réalisé un PoC pour faire de l’analyse d’impact sur ses flux applicatifs.