Microsoft a annoncé hier la disponibilité générale sur Azure de son service Hadoop HDInsight pour le traitement des big data. Celui-ci repose sur HDP, la distribution Hortonworks du framework Apache Hadoop. Il était en mode preview depuis mars dernier. Ce n'est pas le premier service Hadoop fourni dans le cloud. Amazon Web Services, Joyent et Skytap en proposent déjà un, Rackspace prévoit aussi de donner accès à HDP et SoftLayer, racheté en juin par IBM, a annoncé hier la disponibilité de solutions à la demande exploitant cette fois la distribution de Cloudera (proposée ici sur des instances dédiées, le framework étant directement installé sur les serveurs physiques).

Pour marquer sa différence, Microsoft veut simplifier le déploiement et l'utilisation de Hadoop. Il met en avant la capacité du service à fonctionner avec ses outils d'analyse de données. Les utilisateurs d'Excel peuvent exploiter une fonctionnalité du tableur, Power BI (accessible via Office 365), pour se connecter aux données via HDInsight, les affiner et réaliser ensuite des analyses métiers clé en main, explique dans un billet Quentin Clark, vice-président corporate du groupe Data Platform chez Microsoft. Il précise à l'attention des développeurs que le service supporte différents langages dont .Net et Java.  

HDInsight sera mis à jour dès la sortie de HDP 2.0


Ce service Hadoop figurait dans les projets de Microsoft dès 2011. Au départ, l'éditeur avait l'intention de développer sa propre version du framework, avec Hortonworks, en la configurant pour Windows Server (*). Mais il a finalement décidé de s'aligner directement sur HDP. HDInsight fournit une version non modifiée de HDP, ce qui permet aux utilisateurs de transférer indifféremment leurs charges de travail entre Azure et d'autres déploiements HDP, a précisé Eron Kelly, directeur général du groupe Data Platform chez Microsoft, à nos confrères d'IDG NS. Lorsque Hortonworks livrera sa prochaine version (la 2.0 doit arriver en novembre), la déclinaison HDP d'Azure sera automatiquement mise à jour.

Depuis un certain temps, ce service fonctionne en mode production pour quelques clients de Microsoft, a indiqué Eron Kelly. La ville de Barcelone l'a utilisé pour analyser des modèles se rapportant au trafic, au ramassage des ordures ménagères et à d'autres données concernant les domaines sur lesquels la municipalité intervient, en espérant trouver matière à mieux contrôler ses dépenses. L'Université de Virginie l'utilise de son côté pour exploiter des outils de séquençage de l'ADN, ainsi que le cite encore Quentin Clark dans son billet. Ce dernier est intervenu sur le sujet ce matin, lors de la conférence Strata et Hadoop World, organisée par O'Reilly à New York. 

(*) La société de Redmond a elle-même contribué au projet Open Source Apache Hadoop et aux logiciels associés, à hauteur de 16 000 lignes de code.