Photobox est un des leaders européens du partage et du tirage de photos en ligne. Présent dans 19 pays, le site compte 25 millions de clients et stocke plusieurs milliards de photos. En 2012, il a décidé de se mettre au big data pour mieux répondre aux demandes de ses clients et affiner leur ciblage. Lors d'une rencontre organisée par l'intégrateur Ysance, Maxime Mézin, data scientist et expert BI de Photobox a expliqué comment il s'y est pris pour mettre en place cette stratégie et comment lui est venu l'idée du cloud.

Quand Maxime Mézin a commencé son travail chez Photobox, le site n'était équipé que d'un vieux datawarehouse. « Il fallait huit heures pour le rafraîchir » raconte le data scientist qui revient sur les contraintes que le développement d'une stratégie big data en interne aurait occasionnées. « Nous étions limité en stockage, il fallait mettre en place un environnement de développement, recruter un administrateur de base de données et acheter de nouvelles licences notamment pour les outils de décisionnel », explique Maxime Mézin. Il aurait fallu investir 100 000 euros en matériel et le même montant en logiciels pour mettre tout en place.

Le choix du cloud avec un PoC sur RedShift d'AWS

Et si stocker et traiter les données est une chose, les analyser en est une autre. Sur les bases qu'il possédait, Maxime Mézin a tenté de mettre en place une solution Hadoop faite maison. « On a passé six mois difficiles à mettre au point un début de solution avec Hive et Hbase, sans toucher une donnée », raconte-t-il à ce sujet. L'idée a finalement été mise de côté. « Je ne me voyais pas gérer 15 000 erreurs Java lors de la mise en production » explique le data scientist avec humour.

Face à ces nombreuses difficultés, Photobox a décidé de se tourner vers le cloud. « On a fait un PoC sur RedShift d'Amazon Web Service, j'ai été conquis » raconte Maxime Mézin. La simplicité et l'efficacité de la solution du géant américain a, en grande partie, joué pour elle. « Quand on a commencé à utiliser Redshift, j'ai cru que c'était Noël », lâche Maxim Mézin. Pour appuyer ses propos, le data scientist met en avant la simplicité d'utilisation et les performances qu'offre AWS : « pour lancer une analyse, il suffit juste de choisir un cluster et de lui allouer un certain nombre de noeuds en fonction de ses besoins ». Cette simplicité de traitement est possible grâce à Elastic Map Reduce, une solution d'analyse d'AWS, 100 % Hadoop.

Un coût 7 fois moins élevé qu'une solution interne

Du coté des performances, Maxim Mézin avoue, qu'au début, il n'y croyait pas. « Pour charger les donnés sur notre vieux datawarehouse, nous mettions 4 jours, mais sur Redshift nous mettons 50 minutes », explique-t-il avant de surenchérir : « auparavant, notre base SQL ne nous permettait pas de faire de count [compter les lignes de données, ndlr], maintenant ça prend trois secondes ».

D'après les estimations faites par Photobox, l'installation d'une solution de big data interne aurait coûté 90 000 euros par an. À l'utilisation, Redshift coûte à l'entreprise 13 000 euros par an, soit sept fois moins. De plus, le déploiement du service d'AWS s'est fait très facilement selon Maxime Mézin et n'a pris qu'un mois.

Des données stockées via un VPN et chiffrées en SSH

Photobox est relié à ses données stockées aux États-Unis via un VPN et celles-ci sont chiffrées en SSH afin que seules les personnes autorisées puissent y accéder. De plus, le service d'Amazon semble très fiable. D'après Maxime Mézin, AWS n'a planté qu'une heure en un an, parce qu'un client de Photobox avait lancé la duplication de ses photos en boucle. Et si par malheur, les datacenters américains d'AWS venaient à être détruits par on ne sait quelle catastrophe, les données seraient immédiatement transférées vers d'autres serveurs.

En somme, Maxime Mézin estime qu'en développant ses infrastructures big data dans le cloud, plutôt qu'en interne, Photobox a gagné en fiabilité, multiplié ses performances d'analyse par 10 et sa capacité de stockage par 32 et dépensé 7 fois moins.