Lutte contre la fraude et le spam, ciblage marketing, prévision des comportements des utilisateurs et utilisatrices, etc., c’est la finalité de l’exploitation d’un framework comme Scikit-learn dans les applications IA. « En 2009, une équipe de développeurs à l’Inria menée par moi-même a extrait des algorithmes de SciPy (ndlr : écrit à l’origine par David Courpaneau) pour créer le noyau de la boîte à outils Scikit-learn. Scikit-learn a alors rapidement grandi en rassemblant beaucoup de méthodes différentes. En 2011, une équipe internationale de volontaires se créait autour du noyau à l’Inria pour le développer. Aujourd’hui, des centaines de personnes réparties partout dans la planète y contribuent », résume Gaël Varoquaux, chercheur à l’Inria. Scikit-learn fournit des outils standards pour extraire la structure de données complexes (bases de données, textes, images) et les classifier en utilisant des techniques statistiques. Scikit-learn est développé en open source et est disponible sous licence BSD, c’est l’un des frameworks les plus utilisés au monde. « Nous évaluons son usage à 500 000 utilisateurs réguliers, il est exploité par un data scientiste sur 5, ce qui en fait l'outil d'apprentissage statistique le plus utilisé », reconnaît Gaël Varoquaux. Selon le chercheur, Scikit-learn est moins puissant qu’un Tensorflow mais beaucoup plus facile à utiliser et, par rapport à un outil comme R, ce framework est plus difficile à prendre en main mais peut être utilisé dans une chaîne de production pour des décisions automatiques. En termes d’évolution, Scikit-learn progresse dans beaucoup de directions différentes. « Cette boîte à outils s’enrichit de méthodes pour intégrer plus facilement des données imparfaites ou hétérogènes. Les méthodes existantes sont améliorées pour être plus rapides, pour pouvoir utiliser des grilles de calculs formées de multiples ordinateurs interconnectés. Finalement, nous rajoutons des outils pour interpréter et comprendre les prédictions des modèles », conclut Gaël Varoquaux. Pour accompagner l’écosystème Scikit-learn, un consortium (BCG Gamma, Microsoft, Axa, Daraiku, etc.) a été créé avec le soutien de la Fondation Inria il y a plus d’un an.