Prêt pour l'entreprise, Hadoop stimule la demande de compétences

L'intérêt croissant des entreprises pour Hadoop et pour les technologies qui lui sont associées stimule la demande de professionnels disposant de compétences pour gérer des « Big Data ».

Sur la conférence Hadoop World, qui s'est tenue à New York au début de ce mois, les analystes et responsables IT présents ont à plusieurs reprises souligné que l'accès à des compétences spécialisées constituerait l'une des principales difficultés des entreprises souhaitant opter pour Hadoop. Et celles qui disposeront des bonnes compétences bénéficieront d'un sérieux avantage sur les autres.

Parmi les conférenciers présents à New York, les responsables IT de la banque JP Morgan Chase et du groupe d'enchères en ligne eBay, ont profité de l'occasion pour indiquer à leur auditoire qu'ils recrutaient dans ce domaine, ont rapporté nos confrères de Computerworld. Hugh Williams, vice-président, responsable des plateformes chez eBay, a précisé que sa société recherchait des professionnels d'Hadoop et invité ceux qui étaient intéressés à s'adresser à lui. Un peu plus tard, c'est Larry Feinsmith, directeur général pour les opérations IT chez JP Morgan Chase, qui a surenchéri et proposé, en semblant ne plaisanter qu'à moitié, de payer 10% de plus qu'eBay.

« Hadoop, c'est le nouveau datawarehouse, la nouvelle source de données » au sein de l'entreprise, décrit James Kobielus, analyste de Forrester Research. On s'intéresse beaucoup aux personnes qui en savent suffisamment sur les rouages d'Hadoop pour aider les entreprises à en tirer avantage », explique-t-il.

Des compétences en datamining et en modélisation prédictive

Le framework Open Source Hadoop aide à collecter et stocker d'importants volumes de données structurées et non structurées. Les entreprises ont commencé à s'en servir de façon croissante pour analyser les petaoctets de données telles que les connexions web, clics et contenus multimédias, afin d'obtenir davantage d'informations sur leurs activités et leurs clients. Cette adoption entraîne la demande de compétences nécessaires aux analyses avancées, ajoute James Kobielus. Cela inclut les personnes ayant des connaissances en matière d'analyse statistique, de datamining, de modélisation prédictive, de traitement en langage naturel, d'analyse de contenus, de textes et de réseaux sociaux, explique-t-il.

« Les Big Data, dans leur sens large, et Hadoop en particulier, génèrent de la demande pour des gens expérimentés utilisant de nouvelles approches telles que MapReduce et le langage R, pour la modélisation statistique et prédictive », poursuit-il. « Il s'agit de personnes spécialisées dans l'analyse de données ou de scientifiques qui travailleront dans les environnements Hadoop pour pénétrer plus avant dans les données et leur donner un nouveau sens ».

Des administrateurs de clusters Hadoop

L'intérêt suscité par Hadoop est aussi en train de créer une demande pour des professionnels de cette plateforme, ajoute James Kobielus. Leur rôle consistera à mettre en oeuvre des clusters Hadoop, à les sécuriser, les gérer, les optimiser et faire en sorte que le cluster reste disponible pour l'entreprise. Selon l'analyste de Forrester Research, les administrateurs de base de données qui interviennent sur Teradata ou sur l'appliance Exadata d'Oracle sont les mêmes profils qui commencent maintenant à redéfinir leurs rôles comme administrateurs de clusters Hadoop. C'est un nouveau monde qui s'ouvre, estime-t-il en ajoutant qu'on s'attend aussi à voir une demande pour les professions de la gestion de stockage et pour celles permettant d'intégrer les environnements Hadoop avec les technologies existantes de bases de données relationnelles.

(Crédit illustration : D.R.)
[[page]]
Martin Hall, PDG de Karmasphere, fournisseur de logiciels pour les environnements Hadoop, confirme que trois catégories de professionnels sont concernées. Les professionnels de la gestion de données seront ceux qui choisiront, installeront, géreront et feront évoluer et monter en puissance les clusters Hadoop. Ce sont eux qui décideront si l'infrastructure Hadoop doit se situer dans le cloud ou sur site, quels fournisseurs il convient de choisir, quelle distribution d'Hadoop retenir. Ils définiront la taille du cluster et s'il doit être utilisé pour exploiter des applications de production ou à des fins de test qualité. Les compétences requises pour ces fonctions sont similaires à celles que l'on demande pour effectuer les mêmes tâches dans des environnements de SGBDR traditionnels ou de datawarehouses, précise Martin Hall.

Des professionnels pour construire des algorithmes MapReduce

La deuxième catégorie de professionnels sera chargée de créer les processus de traitement des données. Ils construiront les algorithmes MapReduce distribués qui seront utilisés par les personnes qui analyseront ensuite les données. Les ingénieurs possédant des compétences en Java et en C++ auront davantage d'opportunités à mesure que les entreprises commenceront à déployer Hadoop, prévoit le PDG de Karmasphere.

La troisième catégorie de professionnels recherchés seront ceux qui disposent d'expérience sur les logiciels d'analyse statistique (SAS, SPSS), ainsi que dans les langages de programmation comme R. Ce sont eux qui généreront, analyseront, partageront et intégreront les informations rassemblées et stockées dans les environnements Hadoop.

Pour l'instant, le manque de compétences autour d'Hadoop signifie que les entreprises ont besoin d'être aidées par les fournisseurs de services pour déployer cette technologie. L'un des indicateurs de cette situation, pointe l'analyste James Kobielus, de Forrester, c'est que les revenus générés autour d'Hadoop par les professionnels du conseil et de l'intégration de systèmes sont bien plus importants que les revenus provenant des ventes des produits Hadoop. Des sociétés telles que Cloudera, MapR, Hortonworks et IBM proposent aux entreprises des formations pour qu'elles puissent elles-mêmes construire leur propre centre d'excellence Hadoop, indique-t-il.

[[page]]

En effet, même s'il subsiste des inquiétudes sur la sécurité et sur d'autres points, Hadoop est prêt à être utilisé en entreprise si l'on se réfère à l'avis de responsables IT qui sont intervenus sur la conférence Hadoop World, à New-York. Ainsi, depuis trois ans, la banque JPMorgan Chase utilise de façon croissante le framework Open Source de stockage et d'analyse de données, a expliqué Larry Feinsmith, le directeur général des opérations IT pour le groupe. La banque continue à s'appuyer fortement sur les systèmes de bases de données relationnelles pour les traitements transactionnels, mais elle utilise la technologie Hadoop pour un nombre croissant d'applications, parmi lesquelles la détection de fraude et la gestion des risques informatiques. Elle gère près de 150 petaoctets de données stockées en ligne, 30 000 bases de données et 3,5 milliards de connexions à des comptes utilisateurs. La capacité d'Hadoop à stocker d'énormes quantités de données non structurées lui permet de collecter les connexions web, les transactions et les informations recueillies sur les médias sociaux. « Nous conservons des données que nous stockions pas auparavant », a pointé Larry Feinsmith. Celles-ci sont agrégées sur une plateforme commune afin d'être explorées, pour mieux comprendre les clients, avec un ensemble d'outils de datamining et d'analyse.

eBay stocke 9 Po de données sur des clusters Hadoop et Teradata

De son côté, le groupe eBay utilise la technologie Hadoop et Hbase, qui supporte l'analyse en temps réel des données, afin de constituer un moteur de recherche pour son site d'enchères en ligne. Hugh Williams, vice-président, responsable plateformes et recherche chez eBay, a expliqué que ce projet de moteur (nom de code Cassini) va remplacer la technologie dont la société s'est servie depuis le début des années 2000. La mise à jour est notamment nécessaire pour prendre en charge les volumes croissants de données. eBay rassemble plus de 97 millions d'acheteurs et de vendeurs actifs et plus de 200 millions d'articles en vente dans 50 000 catégories. Il gère 2 milliards de pages vues, 250 millions de requêtes et 10 millions d'appels à des bases de données chaque jour, a indiqué Hugh Williams. Le groupe stocke 9 petaoctets de données sur des clusters Hadoop et Teradata, un volume qui grossit vite, a ajouté le responsable plateforme et recherche. Il précise que 100 ingénieurs d'eBay travaillent sur le projet Cassini, ce qui en fait l'un des plus gros efforts de développement de la société.

Le moteur, prévu pour entrer en fonction l'an prochain, devra répondre aux requêtes des utilisateurs en fournissant des résultats contextuels et plus affinés que ceux que propose l'actuel système, promet Hugh Williams.

Larry Feinsmith, de JP Morgan Chase, met en garde les départements informatiques qui seraient intéressés par Hadoop. Ils doivent être vigilants sur les questions de sécurité. Il explique que l'agrégation et le stockage des données provenant de sources multiples peut créer de nombreux problèmes liés au contrôle d'accès et à la gestion des données, tout en faisant remonter des questions liées à la possession des données.