Cinq étapes pour se préparer au traitement des big data

On parle beaucoup de « big bata » ces temps-ci. Un peu trop au goût de certains. Les acteurs IT et les experts qui s'y réfèrent les présentent néanmoins comme un actif stratégique clé des prochaines années. C'est sans doute le bon moment pour réfléchir aux orientations à prendre.

Manipuler de larges volumes de données n'est pas une nouveauté pour les départements informatiques, mais derrière le battage fait sur la question, les big data diffèrent vraiment du datawarehouse, du datamining et de l'analyse décisionnelle qui les ont précédées, souligne Beth Stackpole, de Computerworld, dans un article publié cette semaine.

Les données sont générées de plus en plus vite, la plupart étant désormais récupérées sous leur forme brute. Les blogs, les réseaux sociaux, les outils de localisation, de même que les informations remontées des capteurs et sondes diverses, créent un nouvel univers de données non structurées. Si celles-ci sont rapidement capturées, gérées et analysées, elles peuvent aider les entreprises à découvrir des faits et des modèles qu'elles n'avaient pas été capables de reconnaître jusque-là. « Nous avons recueilli beaucoup de données pendant longtemps », relate ainsi Paul Gustafson, directeur des programmes technologiques du Leading Edge Forum de CSC. Archivées, elles étaient modélisées autour des processus métiers, mais elles ne l'étaient pas comme un ensemble de connaissances plus large pour l'entreprise, pouvant être reliées entre elles. L'informatique se trouve à l'avant-garde de cette révolution. Les responsables IT devraient commencer à préparer leur entreprise pour cette transformation, estiment des analystes tels que Mark Beyer, de Gartner. Voici cinq actions à entreprendre pour en poser les fondations.

1 - Faire l'inventaire de ses données.

Toutes les entreprises, ou à peu près, ont accès à un flux régulier de données non structurées, que celles-ci proviennent des médias sociaux, ou de capteurs surveillant une usine, par exemple. Cela ne signifie pas qu'elles doivent toutes les sauvegarder et les exploiter. Cet afflux soudain a suscité un besoin artificiel d'essayer de comprendre toutes ces données, remarque Neil Raden, un analyste de Constellation Research. Ce souci a pu être provoqué par des consultants ou fournisseurs soucieux de promouvoir leurs solutions. « Il y a une certaine pression de la part de ceux qui commercialisent la technologie », observe Neil Raden. Sans urgence, une première étape pourrait consister à inventorier quelles données sont créées en interne et déterminer quelles sont les sources externes, s'il y en a, qui pourraient apporter des informations complémentaires sur l'activité de l'entreprise, explique l'analyste de Constellation Research.

Une fois cet état des lieux engagé, les équipes informatiques devraient entreprendre des projets très ciblés qui pourraient être utilisés pour montrer quels résultats on peut obtenir, plutôt que d'opter pour des projets en mode big-bang. Mieux vaut éviter de dépenser plusieurs millions de dollars pour déterminer si un projet vaut la peine d'être mené, souligne Neil Raden.

2 - Donner la priorité aux métiers

Aligner l'IT avec les métiers est indispensable dans le cas d'un chantier aussi important que peut l'être le traitement des big data. Les premières occasions de traiter ces volumes se sont trouvées hors du périmètre de la IT. Par exemple dans des départements marketing qui ont décidé de récolter les flux des médias sociaux pour gagner en visibilité sur les besoins des clients et les tendances en matière d'achats. Si c'est effectivement du côté business que l'on devrait identifier l'intérêt de ces analyses, c'est à la IT que revient de prendre en charge la fédération et le partage des données et de mettre en oeuvre la stratégie big data. Pour Dave Patton, analyste chez PricewaterhouseCoopers, ce n'est pas une démarche que la IT peut faire seule de son côté. « Il sera difficile d'en faire une success story si le projet n'est pas aligné sur les objectifs business ».

3 - Réévaluer l'infrastructure[[page]]
3 - Réévaluer l'infrastructure

Dans la plupart des entreprises, les projets big data vont demander des changements importants. D'une part sur les infrastructures serveurs et de stockage, d'autre part sur la gestion des données, si l'on en croit Mark Beyer, du cabinet Gartner, ainsi que d'autres experts. Les responsables informatiques doivent se préparer à étendre leurs systèmes pour qu'ils supportent des bases en perpétuelle expansion, recevant données structurées et non structurées. Cela signifie qu'il faut trouver la meilleure approche pour rendre les systèmes à la fois extensibles et évolutifs et qu'il faut élaborer une feuille de route pour intégrer tous les systèmes disparates qui vont alimenter l'effort d'analyse des big data.

« Actuellement, les entreprises ont souvent des systèmes disparates et séparés pour gérer la paie, les relations clients, le marketing », indique Anjul Bhambhri, vice-président, responsable des produits big data chez IBM. Les CIO ont besoin de mettre en place une stratégie pour les faire converger. « Il faut pouvoir poser des questions qui traversent tous ces systèmes pour obtenir des réponses », précise le VP d'IBM.

4 - Etudier les technologies associées

Evidemment, le monde des big data apporte sa liste d'acronymes et de technologies. Les outils en Open Source sont ceux qui retiennent le plus l'attention. On met au crédit des Hadoop, MapReduce et NoSQL d'avoir aidé les géants du web que sont Google et Facebook à naviguer à travers leurs réservoirs de big data. La plupart de ces technologies, même si elles sont désormais disponibles sous une forme commerciale, sont encore assez immatures et requièrent pour s'en servir des compétences très spécifiques. Parmi les autres technologies importantes dans le monde des big data figurent l'analytique in-database pour être au plus près des données, les bases exploitant le stockage en colonnes et les appliances de datawarehouse. Les équipes IT vont devoir comprendre ces nouveaux outils pour pouvoir faire des choix avertis en matière de big data.

5 - Préparer ses équipes

Qu'elles aient besoin d'experts Hadoop ou de spécialistes des données (data scientists), les départements IT manquent sévèrement des talents nécessaires pour aller plus loin avec les big data. Les compétences en matière d'analytique sont peut-être les plus cruciales et c'est là que se trouvent les manques les plus importants.

McKinsey prévoit que, pour les seuls Etats-Unis, on aura besoin d'ici 2018 de 140 000 à 190 000 experts supplémentaires spécialisés dans les méthodes statistiques et l'analyse de données. Parmi les postes les plus demandés se trouvera la fonction de plus en plus médiatisée de « data scientist ». En outre, McKinsey s'attend à des demandes à la fois du côté métier et technique pour quelque 1,5 million de managers à l'aise avec les données, disposant d'une formation reconnue dans l'analyse prédictive et les statistiques.

Pour quelques entreprises, particulièrement celles qui se trouvent dans les zones les moins peuplées, trouver des compétences sera l'un des aspects les plus délicats des projets de big data. Pour une structure de taille moyenne, ce sera un défi de constituer une équipe et de faire en sorte qu'elle suive le rythme en constante évolution de cet environnement, estime Rick Cowan, CIO de True Textiles, un fabricant américain de tissu situé dans le Maine. Pour y faire face, il a commencé à reconvertir des développeurs et des spécialistes des bases de données pour les faire progresser sur les analyses avancées.

Les directions des départements IT vont devoir elles-mêmes se transformer pour exceller dans ce nouveau monde. Les managers IT du futur combineront des compétences sur l'analyse de données et les processus métiers, estime Mark Beyer, de Gartner. « Les CIO ont eu l'habitude de gérer des infrastructures à partir des prescriptions des métiers, par opposition à un CIO qui serait capable d'identifier une opportunité et par conséquent de pousser vers une utilisation innovante de l'information », explique-t-il. C'est la transformation qui devra se produire.