Alors que se tient en ce moment à Munich la conférence DataWorks 2017 (ex-Hadoop Summit), nous revenons sur un entretien accordé par Scott Gnau, CTO d'Hortonworks, il y a quelques semaines à Paris. Ce dernier avait alors abordé les évolutions induites par l'Internet des objets sur les projets big data. « L’IoT transforme la façon dont on met en œuvre la technologie. Dans le passé, les transferts de données et les traitements ETL étaient unidirectionnels, alors que dans l’IoT, on passe dans un mode de transfert bidirectionnel des données depuis et vers les capteurs », avait alors exposé le CTO d'Hortonworks en citant en exemple les voitures autonomes. Ces véhicules connectés communiquent entre eux et avec un système central, ce qui crée un nouveau paysage. Cela entraîne de nombreuses implications sur la façon dont on met en place le réseau d’échanges et dont on optimise sa gestion, compte-tenu des différentes façons de communiquer, des différents coûts associés et des performances recherchées. Dans ce contexte, l’optimisation est très importante, souligne Scott Gnau.

Ce qui change aussi avec l’Internet des objets, par rapport à l’exploitation centralisée des données que l’on faisait auparavant, c’est que l’on peut traiter les informations « at the edge », c’est-à-dire au niveau où les données sont collectées, rappelle le CTO d’Hortonworks. Les équipements, les smartphones ou autres ont la capacité d’analyser les données. Il faut être capable de distribuer les applications à ce niveau et cela redéfinit la notion de mise à l’échelle. « Jusqu’à présent dans l’industrie, lorsqu’on parlait de scalability, il était toujours question d’augmenter la puissance des traitements centralisés. Dans ce nouveau monde, la mise à l’échelle se fait « at the edge » parce que si vous avez des millions de terminaux, il devient intéressant d’exploiter et de tirer profit des capacités de traitement qui se trouvent à ce niveau », indique Scott Gnau. Evidemment, ajoute-t-il, dans ce nouveau monde, la sécurité et la protection de la vie privée sont devenus des défis techniques particulièrement intéressants à relever. Auparavant, la sécurité reposait sur un périmètre de firewalls très solide dressé autour du système d’entreprise. Désormais, le système de l’entreprise peut se retrouver sur les équipements situés en bout de réseau qu’il faut pouvoir protéger à cet endroit-là. Toutes ces préoccupations se rejoignent et constituent les demandes du marché en ce moment, constate le CTO d’Hortonworks. 

Les développeurs Hadoop et de la communauté Apache mobilisés

Bien sûr, la communauté Apache et les développeurs contribuant aux projets autour d'Hadoop travaillent sur ces questions. « Et je pense que ce que l’open source apporte est très intéressant parce que si vous regardez avec quelle rapidité ces nouvelles technologies entraînent des changements, il serait quasiment impossible de suivre le rythme tout seul de son côté, alors qu’avec la communauté, vous accédez à d’autres compétences », insiste Scott Gnau. Apache Nifi, Storm ou Kafka, entre autres, figurent parmi les plus récents exemples de contribution d’Hortonworks aux projets open source, a indiqué le CTO. Il évoque aussi Minifi, sous-projet de NiFi qui se concentre sur la collecte de données à la source. « Apache Nifi constitue un backbone pour gérer des flux de données complexes dans l’IoT. En travaillant avec la communauté, nous avons livré une mise à jour importante d’Apache Nifi incluant Minifi qui apporte des agents très légers qui peuvent être poussés en bout de réseau vers des équipements plus petits. Il s’agit d’une technologie intéressante et, donc, très récente ».

Interrogé sur les relations avec Apache et l’open source, Scott Gnau insiste sur l’implication d’Hortonworks. « C’est quelque chose que nous prenons très au sérieux, nous faisons des contributions majeures aux logiciels Apache et à la fondation. Nous supportons et stimulons la communauté en investissant dans des initiatives comme Hortonworks Community Connection, plateforme sur laquelle nous avons créé un forum pour qu'elle puisse communiquer, poser des questions, collaborer et être plus efficace. Nous avons aussi créé des outils qu’elle peut utiliser pour accroître l’agilité de la technologie que nous fournissons », nous a-t-il indiqué en précisant que cela ne remplace aucun des outils qu’Apache utilise.