Inquiétude #1 : Hadoop va-t-il disparaître de la scène du big data avec l'acquisition d'Hortonworks par Cloudera ?

Pour répondre très simplement à cette question, non ! Pour rappel, aujourd’hui, Hadoop est la plateforme la plus mature qui implémente l’approche de traitement parallèle et de stockage distribuée des données à large échelle à l’aide d’un cluster. L’évolution d’Hadoop n’est pas drivée par les éditeurs commerciaux, mais par l’open source. La valeur ajoutée des éditeurs intervient sur le support, la formation et la convivialité d’utilisation qu’ils offrent (cela s’appelle une distribution). Ainsi, même si Cloudera venait à stopper la commercialisation de sa distribution, la vibrante et active communauté de l’open source continuerait à faire évoluer Hadoop. Maintenant, si malgré tout, un éditeur venait s’engager à développer une plateforme propriétaire équivalente d’Hadoop, cela reviendrait beaucoup trop cher aux clients ! Vous n’avez qu’à voir le coût des solutions de traitement massivement parallèles du marché pour comprendre ce que nous disons. C’est pourquoi même les entreprises qui possèdent des liquidités élevées comme Amazon, Google, Microsoft préfèrent embarquer Hadoop dans leurs solutions de big data (Cf Amazon EMR, Microsoft Azure HDInsight).  L’avantage d’Hadoop est que son coût de développement (et d’évolution) est nul puisque les membres de la communauté open source contribuent au développement de logiciels à titre bénévole.

Donc, non ! la probabilité qu’Hadoop disparaissent après l’acquisition d’Hortonworks par Cloudera est faible (voire quasi-inexistante), car ce n’est pas Cloudera qui drive l’évolution d’Hadoop, mais la communauté open source.

Inquiétude #2 : l'acquisition d'Hortonworks par Cloudera annonce-t-elle la fin du big data ?

Encore une fois, non ! L’acquisition d’Hortonworks par Cloudera est fort probablement une décision stratégique. Elle peut peut-être envoyer un signal aux marchés financiers (donc aux investisseurs), mais elle n’a aucun impact sur l’évolution du marché du big data.

Pour répondre à cette question, il faut comprendre ce qu’est véritablement le big data. Aujourd’hui, il est perçu aux yeux de tous comme étant l’explosion de données, la taille phénoménale du volume de données produite par les activités du Numérique. Bref, les fameux « 3V ».  Malheureusement, concevoir le big data sous un aspect purement volumique, c’est minimiser le potentiel économique de la donnée et limiter sa perception vis-à-vis de la transition numérique qui est en cours. Nous ne cesserons pas de le dire, le big data n’est pas avant tout un phénomène de volumétrie de données, c’est un phénomène social. C’est la partie visible de la transition du monde de l’ère industrielle à l’ère et à l'économie numérique. Une transition qui provient de la combinaison de 2 facteurs : la mise à disposition d’Internet entre les mains du grand public et l’augmentation du nombre de personnes connectées à Internet. 

Donc, non ! l’acquisition d’Hortonworks par Cloudera n’entraînera pas la fin du big data, car le big data n’est pas un phénomène technologique, mais une transition sociale. Bien au contraire, cette acquisition a lieu à cause de l’essor du big data !

Inquiétude #3 : Hadoop va-t-il être remplacé dans le futur ?

Non ! Hadoop ne va pas être remplacé dans un futur à moyen ou même long terme. Déclaration audacieuse n’est-ce pas ? Pour comprendre d’où nous vient cette assurance, il faut se souvenir que l’adoption à large échelle d’une technologie ne dépend pas des développeurs, consultants, managers, lead engineers, etc. mais des utilisateurs métiers. Traditionnellement, il est admis que c’est la rareté qui crée un avantage stratégique, c’est-à-dire le fait de posséder quelque chose que les autres ne possède pas (la différenciation, encore connue sous le nom de loi de la rareté, cf. paradoxe de l’eau et du diamant). Ce point de vue est valable et vrai. Cependant, il ne s’applique pas pour tous les produits. Certains produits, comme les produits culturels (livres, musiques, films, etc.) ou encore les produits technologiques (photocopieurs, téléphones, bases de données, Hadoop) gagnent en valeur/importance en fonction du nombre de personnes qui les utilisent/consomment.

Par exemple, plus le nombre de lecteurs d’un livre augmente, plus ce livre a de la valeur. Plus le nombre de personnes qui ont un compte Facebook/whatsApp augmente, plus le réseau social a de la valeur. Plus une application est téléchargée sur le Play Store ou Google Store, plus cette application gagne en importance. Idem, plus l’audience d’une émission augmente, plus cette émission a de la valeur. On appelle cet effet en économie les effets de réseaux. Bob Metcalfe avait fait ce constat pour les produits technologiques et fait une déclaration qu’on admet aujourd’hui comme loi. Cette loi porte son nom (loi de Metcalfe). Elle stipule : « la valeur d’une technologie est proportionnelle au carré du nombre de personnes qui l’utilise ». Pour paraphraser cette loi, on pourrait dire que « la valeur d’une technologie est proportionnelle au nombre de personnes qui l’utilise ». Ce sont donc ces effets de réseau qui justifient que le succès d’une technologie ne dépende pas des développeurs ou des utilisateurs spécialisés, mais des utilisateurs métiers. Une technologie gagne ainsi en importance en fonction du nombre de personnes qui l’utilise. Lorsque ces effets deviennent suffisamment puissants (ou lorsque le nombre d’utilisateurs atteint un seuil critique), la technologie finit dès lors par devenir un « standard ». Aujourd’hui, le nombre d’utilisateurs d’Hadoop n’a pas encore atteint une taille critique pour que les effets de réseaux entrent en jeu, mais il est facile de voir que cela ne tardera pas, car Hadoop présente les caractéristiques d’une technologie qui pourra devenir un standard.

Les opportunités à long terme d'Hadoop bien réelles

En matière de data, le SQL est aujourd’hui un langage très commode et une compétence possédée par tout analyste métier digne de ce nom. De plus, la majorité des systèmes opérationnels des entreprises (par exemple Business Objects, Oracle, SAS, Tableau, SAP, Genesys Info Mart, etc.) tourne sur SQL. Ainsi, une technologie de gestion de données, aussi performante soit-elle, ne deviendra jamais un standard si elle n’est pas complètement intégrée à SQL. En plus d’être mature et stable, Hadoop est l’une des rares plateformes technologiques du big data complètement intégrée à SQL qui, dans quelques années, ne requerra pas plus de compétences que le SQL pour être exploitée. C’est pour cela que nous pouvons dire avec assurance qu’Hadoop ne sera pas abandonné dans le futur, au contraire, sa standardisation ne fait que commencer. Spark a compris ce concept de transparence à l’utilisateur, mais n’est pas encore suffisamment mature pour remplacer Hadoop. Donc, soyez sans crainte et ne vous laissez pas déstabiliser par du bruit médiatique, les opportunités d’Hadoop et du big data sont bel et bien réelles.

Voilà, nous espérons que ce point de réflexion vous éclaire sur le futur du big data. Alors selon vous, Hadoop va-t-il passer le test de la durée ? Réagissez à ce billet en laissant un commentaire ci-dessous.