Voilà 10 ans que LexisNexis planche sur le développement d'un système de traitement des données à grande échelle. Aujourd'hui, l'entreprise pense avoir abouti à une meilleure solution, plus mature, que la technologie Hadoop. Mais LexisNexis a besoin de la contribution de développeurs pour aller de l'avant.

Quand LexisNexis a commencé à développer sa plate-forme de traitement de données en parallèle, c'était d'abord pour répondre aux besoins de sa propre activité de traitement intensif de données, à savoir la distribution de contenu et la recherche spécialisée dans le droit et la comptabilité notamment. En fait, l'une des plus grandes bases de données en matière législative et administrative au niveau mondial. Mais aujourd'hui, LexisNexis veut contribuer à étendre l'utilisation de cette technologie, baptisée HPCC Systems, à d'autres marchés, même si elle sait clairement que la solution Open Source Hadoop s'est déjà imposée et dispose d'une forte implantation.

Mais LexisNexis a rendu sa plateforme HPCC Open Source, et affirme qu'elle dépasse Hadoop en terme de performances. De plus, elle fait valoir qu'il existe désormais un vivier d'environ 1 000 développeurs spécialisés dans les systèmes HPCC dans le monde, dont la plupart ont été formés depuis le mois de juin, date à laquelle LexisNexis a livré sa plate-forme au monde du logiciel libre. Comparativement, l'été dernier, la conférence des développeurs Hadoop avait attiré 1 700 personnes environ.

Un benchmark contre une solution Hadoop SGI

Afin de mesurer les capacités de sa plate-forme, LexisNexis a réalisé un benchmark standard Terasort pour comparer son HPCC à un benchmark SGI réalisé en octobre dernier avec la même de charge de travail sur un cluster Hadoop. LexisNexis affirme que son benchmark affiche des performances 25% plus rapides, en ajoutant que son système a nécessité beaucoup moins de hardware. A savoir un cluster 4 noeuds contre un cluster 20 noeuds pour le système SGI. Le test de LexisNexis a été effectué sur un serveur deux sockets PowerEdge Dell, intégrant des processeurs Intel Xeon six coeurs. Flavio Villanustre, vice-président de l'infrastructure et des produits chez LexisNexis Risk Solutions a, en partie, confirmé les résultats du test, après avoir comparé le nombre de lignes de code nécessaires pour effectuer le tri sur chaque système.

« Il a fallu trois lignes de code ECL - le langage développé spécifiquement par LexisNexis pour ce système - pour réaliser le tri sur HPCC, contre 100 lignes de code en Java, le code utilisé par Hadoop, » a déclaré le vice-président. Mannel Bill, vice-président du marketing produit chez SGI, à qui l'on a demandé son avis sur le benchmark HPCC, a déclaré dans un communiqué qu' « il pouvait y avoir beaucoup de variations en matière de traitement distribué sur Terasort. Les systèmes HPCC tournent sur Terasort en code ECL, alors que chez SGI, Hadoop tourne sur le framework logiciel de traitement parallèle MapReduce.

Flavio Villanustre croit que le HPCC pourrait trouver sa place et réussir sur le marché contre Hadoop, même si pour lui, rien n'est acquis d'avance. Et il aimerait bien éviter que le système HPCC ne finisse comme le Betamax, qui a perdu la guerre des formats vidéo au profit du VHS, ou comme le système d'exploitation OS2 d'IBM, qui a été écrasé par Microsoft Windows. « Nous voulons donner les meilleures chances au système pour favoriser son adoption, c'est pourquoi nous voulons aller aussi loin que possible dans sa mise au point et ses performances, » a déclaré le vice-président de LexisNexis.

Un double licence pour LexisNexis

Le système HPCC est également disponible dans le cloud via Amazon Web Services sous forme d'offre à double licence avec d'un côté une édition communautaire et de l'autre une plate-forme commerciale. Matt Aslett, analyste du Groupe 451, croit que LexisNexis pourrait mener une politique beaucoup plus agressive « compte tenu de l'important écosystème de développeurs et d'éditeurs qui s'est formé autour d'Apache Hadoop, et qui ne cesse de croître. » Plus précisément, l'analyste pense que la stratégie de double licence permet à l'entreprise d'empêcher la dispersion de son code et de générer des revenus en gagnant des adeptes. « Mais, traditionnellement, les stratégies de double licence ne réussissent pas à rassembler une communauté de développeurs. » L'analyste du Groupe 451 estime aussi que «  si LexisNexis avait livré son logiciel sous une licence plus ouverte ou s'il avait versé le code à une fondation Open Source, il aurait eu plus de chance de favoriser son adoption par les développeurs. »

C'est Bruce Perens, un partisan du logiciel libre et conseiller stratégique chez LexisNexis, qui a mis au point la licence - appelée Le Pacte (The Covenant) - pour la plate-forme de Services HPCC. S'il convient que les stratégies de double licence ont eu des succès mitigés, il dit que le cadre de la licence HPCC a été conçu pour remédier à ce problème. Selon lui, la version actuelle du code restera toujours libre et, en matière de licence Open Source, il n'y a aucun moyen de revenir en arrière. « Quelqu'un peut assigner son code au HPCC uniquement s'il veut que le HPCC le prenne charge à partir de ce moment là - ce qui est bien sûr très souhaitable », a t-il déclaré. Chaque fois qu'un développeur veut ajouter du code, il cède ses droits d'auteur à l'entreprise. Mais il a l'assurance que, pendant trois ans, comme le stipule Le Pacte, le code HPCC reste Open Source pour le contributeur. La période de disponibilité de trois ans « est une garantie qui doit rassurer les développeurs quant à la destinée de leur contribution, et non pas une manière de détenir le projet en échange d'une rançon, » a répondu Bruce Perens par courriel.

« Le HPCC pourrait toujours se retrouver sous une licence moins restrictive si la double-licence ne fonctionnait pas, mais ce n'est pas prévu, » a déclaré le conseiller stratégique. Tout le monde aime recevoir des cadeaux, « mais ce n'est pas toujours équitable pour celui qui écrit le code, » s'il doit le livrer sans conditions à ses concurrents. C'est pourquoi Bruce Perens soutient que la double licence redonne une certaine logique économique au monde de l'Open Source, et que grâce à cette modalité, « le Pacte permet d'offrir une compensation à la communauté des développeurs. »