Actuellement utilisé en production par eBay dans ses différentes business units, Kylin, son moteur d'analyse distribuée, s'apprête à vivre une nouvelle vie. En effet, le poids-lourd du commerce en ligne a annoncé la mise à disposition de sa technologie auprès de la communauté Open Source et faire de Kylin un projet incubé par Apache. « Le challenge que nous avons rencontré chez eBay est que notre volume de données est devenu de plus en plus grand, alors que notre base utilisateur s'est de plus en plus diversifiée », a expliqué eBay dans un billet.

Des travaux ont ainsi été menés en interne ayant abouti au besoin de répondre à plusieurs exigences dont le fait de mettre au point un produit disposant des caractéristiques techniques suivantes, à savoir une latence de requêtage sur des milliards de lignes inférieure à la seconde, le support du standard ANSI pour ceux utilisant des outils SQL compatibles, des capacités full OLAP pour proposer des fonctionnalités avancées, la capacité à supporter de très larges dimensions et des milliers d'utilisateurs, mais également une architecture distribuée pour l'analyse dans des contextes volumétriques tera ou petaflopiques.

Une intégration aux outils de Business Intelligence comme Tableau

« Nous nous sommes rendus compte que rien ne correspondait exactement à nos exigences en externe, même dans la communauté Open Source Hadoop », a indiqué eBay. « Afin de répondre à nos besoins, nous avons décidé de construire une plateforme en partant de zéro ce qui a abouti à Kylin que nous avons mis en production et que nous proposons aussi en Open Source. »

Kylin propose ainsi de nombreuses fonctions taillées pour répondre aux besoins en termes d'analytique big data dont la capacité à réduire les temps de latence des traitements Hadoop jusqu'à plus de 10 milliards de lignes de données, le support des fonctions de requêtes ANSI SQL, la possibilité pour les utilisateurs d'interagir plus rapidement avec les données Hadoop ou encore le fait de pouvoir définir un modèle de données et préconstruit dans Kylin avec plusieurs milliards d'enregistrements en ligne et l'intégration à des outils BI comme Tableau Software.

Les composants de la plateforme Kylin incluent un gestionnaire de métadonnées, un moteur dédiés aux jobs offline (shell script, Java API et jobs MapReduce), un moteur de stockage, un serveur REST, un driver ODBC et un moteur de requêtage. eBay envisage par ailleurs prochainement deux évolutions fonctionnelles pour Kylin avec le support TopN sur des dimensions à « grande cardinalité » (high-cardinality), ainsi que le support d'Hybrid OLAP (HOLAP).