« Dès le 5 décembre (premier jour de la grève), la demande a été multipliée par 3  », se souvient Gilles Rasigade, CTO de Kapten. Si le spécialiste du VTC avait anticipé cette montée en charge, les infrastructures IT doivent répondre en temps et en heure à cette forte demande. Et pour assurer cette élasticité, Kapten a misé sur un mix cloud et Kubernetes, « pour la partie cloud, nous sommes sur Google Cloud Platform et sur Kubernetes, nous sommes en mode auto-scaling, le système s’occupe de gérer automatiquement les besoins de calcul, de mémoire et de stockage ». En fonction des pics de demandes, « « la plateforme change de topologie en créant de nouveaux nœuds et des pods. Le temps de réponse est très faible », constate le dirigeant.

Kapten n’a pas attendu les grèves du mois de décembre-janvier pour adapter son infrastructure IT. Deux événements ont fait prendre conscience à l’entreprise de revoir l’architecture de sa plateforme. Le premier est « la grève du 13 septembre qui a surpris un peu tout le monde » et le second est « l’ouverture de la plateforme à Londres, qui a généré une très forte demande ». Ces expériences « ont permis d’ajuster la plateforme et les choix technologiques », glisse Gilles Rasigade. « Il y a deux ans, nous avons misé sur Kubernetes car nous voulions avoir un contrôle de l’infrastructure en ajoutant des éléments d’automatisation (load balancing, ressources, etc.) », se souvient-il. Pourquoi ne pas être allé sur du serverless ? « Une évaluation du serverless a été réalisée, mais les temps de réponse et de chauffe sont problématiques », reconnait-il. « Nous avons préféré la fonction auto-scaling et ce choix a permis d’optimiser le déploiement des nœuds et des pods sans interruption de service », ajoute le responsable.

Des bonnes pratiques et un développement en mode chaos

A travers les expériences de Londres et du 13 septembre, Kapten a capitalisé aussi sur les « métriques de comportements des pods, la création de scénarios sur des pics d’activité extrêmement temporaires, l’analyse des goulets d’étranglement en créant des tableaux de bord ». Sur ce dernier point, il souligne « le fait de ne pas être pollué par des alertes ou des notifications et se concentrer et se focaliser sur les métriques mises en place ». De plus, ces situations exceptionnelles impliquent « un travail en équipe en associant les métiers, car les points de mesure touchent tout le monde », observe Gilles Rasigade et de compléter, « nous nous inscrivons dans une démarche de bonnes pratiques avec une méthode SRE (Site Reliability Engineer) ».

Au final, les options prises par le CTO se sont avérées payantes. « La plateforme de réservation a bien réagi et a été très réactive pendant les grèves ». L’objectif était d’assurer une bonne expérience pour les utilisateurs et pour les chauffeurs. « 90% de nos chauffeurs étaient mobilisés pendant les plages horaires des grèves », rappelle Gilles Rasigade. Pour autant le CTO ne s’endort pas sur ses lauriers et regarde les évolutions et les travaux à mener sur son architecture IT pour l’améliorer et l’optimiser. « Un des sujets à venir est d’intégrer « le chaos » dans nos développements pour assurer la résilience du système ». Kapten va travailler avec Google Cloud sur ce sujet en évaluant « des serveurs mesh au sein du projet Istio dans Kubernetes et en fixant des niveaux de taux de disponibilité », conclut Gilles Rasigade.