Moins connu que d’autres projets Apache associés à Hadoop, comme Hive ou Impala, Tajo est un système de datawarehouse pour Hadoop qui s’appuie sur les standards SQL. La fondation Apache vient d’annoncer sa disponibilité en v0.10.0. Le logiciel est utilisé pour des requêtes ad-hoc à faible latence et évolutives, pour l’agrégation en ligne et pour les opérations d’extraction et transformation de données (ETL) sur des jeux de données importants stockés sur HDFS et sur d’autres sources.

L’évolution du projet ces deux dernières années en fait un moteur SQL-on-Hadoop mature, estime Hyunsik Choi, vice-président sur le projet, par ailleurs directeur de recherche chez Gruter, un éditeur qui propose Tajo sous la forme d’un service. Le logiciel dispose maintenant d’un pilote JDBC qui permet d’y accéder comme s’il s’agissait d’un SGBDR traditionnel, décrit-il. « Nous avons vérifié ce pilote sur plusieurs solutions BI commerciales et différents outils SQL. Il s’utilisait facilement et fonctionnait bien », assure-t-il dans un billet

Intel, Cloudera et Hortonworks contribuent au projet

Parmi les autres avancées de la v0.10.0, Tajo inclut les catalogues des commandes SQL intégrées d’Oracle et PostgreSQL, bénéficie du support complet de JSON (JavaScript Object Notation) et peut accéder directement aux tables HBase. Elle améliore également son support du service de stockage cloud Amazon S3.

Pour les entreprises qui se sentent à l’étroit dans leur datawarehouse, Tajo peut être une bonne solution. De même que pour celles qui veulent analyser des données stockées sur Hadoop en se servant de leurs outils de BI habituels plutôt que recourir au framework MapReduce. Le développement de Tajo est principalement conduit par Gruter, une start-up située entre Corée du Sud et Californie (Palo Alto) qui développe d’autres produits autour de Hadoop, comme Qrytica (analyse big data via SQL) et Cloumon (gestion de cloud). Des ingénieurs d’Intel, Etsy, la Nasa, Cloudera et Hortonworks contribuent également au projet. En 2013, l’opérateur coréen SK Telecom a testé Tajo en l'utilisant sur 1,7 To de données et constaté qu’il pouvait traiter ses requêtes plus vite qu’avec Hive et Impala sur la plupart des instances. Tajo as a service proposé par Gruter permet de tester rapidement le logiciel dans le cloud sur d'importants jeux de données.