De quelles compétences les entreprises doivent-elles disposer pour mettre en oeuvre, dans le traitement des big data, les outils d'analyse prédictive longtemps réservés aux statisticiens. Et que recouvre le profil de data scientists associés à ces projets qui consistent à explorer d'énormes volumes de données non structurées (flux de données de capteurs, séquençage de génomes, écoute des réseaux sociaux ou des échanges vocaux des centres d'appels, vidéos, etc.) en les associant à des données structurées ? C'est l'un des points qui ont été abordés cette semaine à Paris, lors d'une table ronde du Club de la Presse Informatique B2B.

En matière de prédictif, ce qui important, c'est la contribution des différents facteurs à la pertinence d'un modèle d'analyse, a rappelé d'entrée de jeu Arnaud de Scorbiac, manager chez Accenture. Dans les domaines industriels, les flux récupérés des capteurs ouvrent de nombreux champs d'applications. Sur les plateformes pétrolières, l'analyse prédictive a notamment permis d'anticiper les accidents et d'en réduire le nombre. Marc Chemin, directeur du planning stratégique chez Capgemini, évoque de son côté les applications dans la santé et le projet de séquençage des gênes tumoraux de l'Institut Gustave Roussy et du Génopôle, pour prédire les réponses aux traitements contre le cancer et éviter les traitements inutiles. Parmi les autres champs prédictifs, il cite aussi l'aéronautique. Lorsqu'un avion atterrit, les données livrées par ses différents capteurs vont aider à déterminer quelles sont les pièces à changer sur le moteur, avant la visite régulière. Jean-Charles Ravon, consultant senior chez Teradata, explique que l'on peut affiner ses modèles et la compréhension de son marché jusqu'à atteindre des niveaux de complexité très élevés : « Cela peut aller jusqu'à plusieurs centaines de milliers de modèles dans les forages pétroliers pour savoir à quelles couches géologiques on peut s'attendre », décrit-il. Les compétences métiers à mettre en oeuvre dans ces différents projets sont donc extrêmement différentes et c'est au data scientist que revient la modélisation prédictive. Or, « lorsque l'on parle de data scientists, on a parfois tendance à dessiner le profil du mouton à cinq pattes, expert en tout, logiciels, matériel, réseaux, algorithmie », constate Jean-Charles Ravon, lui-même data scientist.

Une combinaison de compétences à associer

« On imagine que le data scientist a une très bonne connaissance du machine learning, qu'il est capable de parler avec les différents métiers, du chief marketing officer aux spécialistes de l'aéronautique. C'est un fantasme ». C'est en fait une combinaison de compétences qui va permettre d'avancer, de trouver la meilleure interaction et complémentarité entre différents profils : métiers, informaticiens, statisticiens, mathématiciens... « J'aime beaucoup cette définition d'un collègue anglais : un data scientist est meilleur statisticien qu'un développeur informatique et meilleur développeur qu'un statisticien », nous a livré Jean-Charles Ravon. On peut trouver ce profil individuellement, « mais c'est difficile », on le trouve plus probablement dans une équipe. « Derrière, ce qui est intéressant, c'est l'émulation intellectuelle qui en résulte », a exposé le consultant de Teradata. Cette émulation débouche sur de nouvelles combinaisons pour modéliser les données qui peuvent conduire, par exemple, à appliquer la microéconométrie à des sujets de forage pétroliers. L'évolution, c'est le décloisonnement total dans les métiers et l'analyse, estime Jean-Charles Ravon. Auparavant, il y avait des domaines d'expertise (dans la banque, l'assurance, etc.), maintenant il faut les mélanger. 

« Nous prenons des gens venant d'horizons extrêmement différents et la richesse, c'est de les faire travailler ensemble », a confirmé de son côté Frédéric Brajon, directeur de l'activité Big data chez CGI Business Consulting. Pour l'instant, les entreprises font plutôt appel à des data scientists externes. « On nous demande s'il faut mettre en place une organisation spécifique et, pour celles qui veulent créer des pôles de compétences, quels cursus faire suivre aux salariés », explique-t-il en constatant par ailleurs une prise de distance avec le clivage MOE/MOA sur ce type de projets : « Il y a beaucoup d'interactivités entre les équipes ». Comme d'autres sociétés de services, pour former des data scientists, CGI s'est engagée dans des formations faites en partenariat avec des écoles. Elle réfléchit aussi à la façon d'amener les informaticiens en poste à travailler sur ces sujets.

L'analytique, une fonction pérenne pour l'entreprise

De son côté, Accenture met également en place des équipes mixtes : des statisticiens et des gens qui maîtrisent les technologies : « celui qui modélise n'est pas celui qui code en Hadoop », souligne Arnaud de Scorbiac, mais les deux profils sont toujours rares et chers. La société de conseil s'investit par ailleurs dans la formation. Outre-Atlantique, elle collabore avec le MIT pour appliquer les technologies analytiques à différents secteurs industriels. Et en France, Accenture a créé avec l'Essec une chaire pour former les data scientists de demain. Il existe en France d'autres chaires consacrées à ce domaine et soutenues par des SSII et des acteurs de l'industrie, notamment chez Telecom ParisTech et Polytechnique.

Sur les profils existants nécessaires en analyse prédictive, Marc Chemin, de Capgemini, voit trois types de compétences : les profils sachant gérer les nouvelles technologies qui changent tous les cinq ans (et ils ne sont pas si nombreux), l'hybride informaticien/statisticien que l'on forme en interne, et puis l'espèce rare, c'est-à-dire le data scientist qui dispose, en plus, d'une vraie compréhension métier. 

« L'analytique devient une fonction pérenne pour l'entreprise, comme l'est devenue précédemment la supply chain, par exemple », estime de son côté Laurent Ridoux, directeur technique Big data chez HP. Se pose ensuite la politique de sourcing : « Doit-on internaliser ou externaliser les compétences ? ». Le directeur technique rappelle enfin comment les fonctions analytiques, en particulier celles de la plateforme Vertica de HP, ont été utilisées par l'équipe de Barack Obama lors de la 2ème campagne du président américain. « C'est intéressant pour l'approche opérationnelle », a-t-il souligné. « Cela a démarré pour John Kerry avec une seule personne, qui sont passées à 8 personnes pour la 1ère campagne d'Obama, puis à 80 personnes lors de la 2ème campagne, dont 30 data scientists et 50 programmeurs auxquels se sont ajoutées toutes les personnes qui pilotaient le contenu digital. » Le coût de la campagne, 20 M$, a été rapidement rentabilisé. Ce fut la 1ère campagne à récolter autant de fonds via les réseaux sociaux. Toutefois, tout ayant ses limites : « Ils ont anticipé qu'ils allaient perdre au Congrès mais ils n'ont pas pu l'empêcher. »