« Créer un système automatique de catégorisation des produits à partir de leur description ». C'est l'objectif fixé par le site de e-commerce Cdiscount pour le challenge big data qu’il propose sur la plateforme Datascience.net, consacrée à ce type de défis. Il reste 81 jours pour y participer avec à la clef 15 000 euros à gagner répartis entre les cinq premières places (*).

Le site de Cdiscount propose actuellement plus de 7 millions de produits. Il s’est ouvert à des vendeurs tiers avec sa marketplace « C le Marché » et, d’ici la fin de l’année, quelques millions de produits vont s’y ajouter. Chacun d’eux devra être placé dans une des 6 000 catégories existantes pour permettre aux internautes de les retrouver facilement, via le moteur de recherche ou en se déplaçant dans les rayons du site, d’où l’importance de déterminer rapidement la catégorie la plus appropriée. Compte-tenu des volumes de données et des combinaisons possibles, Cdiscount va donc recourir à un système automatique de catégorisation conçu à partir d’algorithmes prédictifs.

Un fichier d’échantillon de 15,7 millions de produits

Le challenge s’adresse à des spécialistes du traitement des données (data scientists). Il se déroule en deux périodes. Au cours de la première phase, qui s'achèvera le 16 août, cinq finalistes seront sélectionnés pour participer à la deuxième phase et devront remettre sous dix jours une note méthodologique décrivant précisément le modèle qu’ils ont mis en oeuvre. Le jury procédera à une évaluation des modèles et en proposera un classement qualitatif. L’échantillon de données d’apprentissage est fourni par Cdiscount sous la forme d’un fichier .csv comprenant 15,7 millions de produits. L’échantillon de test prend la même forme et contient 35 065 produits. Lors de la phase 1, les contributeurs au défi doivent proposer des classements de l’échantillon de test. A ce jour, le challenge compte 131 participants et 45 contributions.

De précédents défis lancés par Axa et la SCNF

Parmi les précédents défis lancés sur Datascience.net, Axa Data Innovation Lab, le centre R&D big data du groupe d’assurance Axa, avait proposé la construction d’un score d’appétence en vente croisée pour un produit d’assurance pendant une campagne de télémarketing en s’appuyant sur les données fournies par les différentes filiales du groupe. L’objectif consistait à mieux cibler les prospects lors d’une vente croisée. La SNCF avait également proposé un challenge pour construire un modèle permettant d’estimer le nombre de voyageurs montant par gare pour un jour de semaine, sur le réseau Ile-de-France, en s’appuyant sur des données en Open Data.

Lancée en novembre 2013, la plateforme datascience.net a été créée par la société de conseil Bluestone, spécialisée dans le traitement des big data et le GENES (Groupe des Ecoles nationales d’économie et de statistiques) qui comprend notamment l’Ensae-Paristech, l’Ensai et le CASD (Centre d’accès sécurisé aux données). Elle permet aux entreprises de soumettre à la communauté des Data Scientists des concours pour valoriser les mega-données avec l’ambition de faire ainsi émerger des solutions  nouvelles. Il héberge aussi des projets pédagogiques en mode privé.

(*) Le candidat arrivant en 1ère position remportera 9 000 €, le 2ème recevra 4 000 €.