Faire tourner l’IA en production à grande échelle
Dès ses débuts en 2023, la startup française a affiché des ambitions fortes dans le domaine de l’IA générative : proposer des modèles open-weight de très haut niveau, avec une approche éthique, souveraine et responsable.
Pour transformer cette vision en produit opérationnel - agents conversationnels comme “Le Chat”, API publique, ou services à destination de partenaires - il fallait une plateforme d’inférence scalable et hautement disponible capable de répondre aux besoins simultanés de millions d’utilisateurs.
C’est dans ce contexte qu’Enix a été sollicité pour son expertise reconnue en cloud et en devops ainsi que sur sa spécialisation en infogérance de plateformes critiques. L’accompagnement a débuté dès la phase de conception de l’architecture, s’est poursuivi avec le déploiement de la plateforme puis le Run et le MCO en 24/7.
Une architecture multi-cloud orientée performance et résilience
Dès les premières phases du projet, les choix technologiques ont été guidés par les besoins spécifiques de l’inférence LLM en production : capacité à gérer d’importants volumes de requêtes et scalabilité horizontale, latence minimale, disponibilité continue et usage optimisé des ressources GPU coûteuses.
“Notre objectif était clair : fournir à Mistral AI une plateforme cloud native capable de délivrer des performances constantes même sous forte charge, opérée par nos équipes, avec une disponibilité de service irréprochable.”, explique Alexandre Buisine, l’un des associés dirigeants d’Enix.
La plateforme conçue par Enix repose sur un double socle cloud (public) et sur Kubernetes, avec l’utilisation des services Kubernetes managés d’Azure (AKS) et de Google (GKE). Ce choix du multi-cloud a permis à Mistral AI de s’adapter aux disponibilités des GPUs sur différents fournisseurs, d’assurer la résilience en évitant tout point de défaillance unique ou encore de ne pas dépendre d’un unique fournisseur.
Dans une logique d’automatisation avancée, les clusters Kubernetes sont déployés avec les solutions d’infrastructure as code adaptées aux services cloud : Terraform et Terragrunt. Les applications sont conteneurisées avec Docker et packagées avec Helm, tandis que les mises à jour et déploiements s’appuient sur une stratégie GitOps avec la technologie cloud native Flux.
Optimisations spécifiques pour l’inférence IA
L’un des challenges clés du projet a été l’intégration d’optimisations spécifiques pour l’IA, souvent complexes à mettre en œuvre dans des environnements cloud managés qui sont par nature plus fermés que les services Kubernetes d’origine (dits “vanilla”) : pour le stockage et le déploiement de grands modèles, des optimisations sur l’autoscaling de nodes avec GPUs, etc.
La plateforme déployée permet de bénéficier des avantages inhérents à Kubernetes comme la résilience via le self-healing, l’autoscaling intelligent des nœuds, la fluidification des mises à jour des applications, ou encore faciliter la maintenance.
Du côté du stockage, des solutions performantes et durables ont été mises en place pour permettre le déploiement de grands modèles, avec un accès rapide aux données critiques. Les bases de données utilisées (de type SQL) sont elles aussi calibrées pour faire face à des pics de charge élevés, en conservant une latence minimale et une haute disponibilité.
Supervision, métrologie et Run 24/7
Le service d’infogérance d’Enix comprend notamment les services classiques suivants permettant d’assurer le MCO et une gestion opérationnelle de qualité :
- le monitoring infrastructure (alerting, métriques, log) et la supervision en temps réel (cloud, Kubernetes, BDDs…) ;
- la gestion proactive des performances (optimisations, capacity planning) ;
- Les mises à jour fonctionnelles et de sécurité ;
- L’automatisation des tâches d’exploitation (scripts, outils DevOps) ;
- la gestion des incidents et le support technique 24/7.
Enix utilise par ailleurs sa plateforme de métrologie cloud native pour remonter les bons indicateurs aux équipes de Mistral AI, avec des dashboards métiers sur mesure, adaptés à leurs enjeux : monitoring des performances d’inférence, consommation GPU, erreurs applicatives, SLAs, etc.
Une collaboration rapprochée au service d'une vision commune
La collaboration entre Enix et Mistral AI dépasse le cadre traditionnel du modèle client-prestataire. Elle s’incarne dans une co-gestion technique et une communication fluide via un canal Slack partagé, comme si les équipes Enix étaient des équipes internes.
Ce mode de fonctionnement, caractéristique de l’infogérance premium proposée par Enix, garantit un accès direct à ses ingénieurs seniors, sans intermédiaire ni matrice d’escalade complexe. Cela permet une optimisation continue des plateformes, une agilité opérationnelle renforcée, une résolution rapide des problèmes et une réactivité qui serait impossible à obtenir dans une organisation plus traditionnelle.
Au-delà de cet aspect, cette collaboration s’appuie sur des valeurs partagées. L’engagement de Mistral AI pour une intelligence artificielle éthique, soutenable et open source résonne avec les principales valeurs d’Enix : transparence, excellence technique et contribution active à l’écosystème open source.
“Collaborer avec Mistral, c’est pour nous l’opportunité de mettre notre expertise au service d’un acteur qui incarne nos valeurs et qui contribue au rayonnement de la France à l’international. En ces temps complexes, nous sommes ravis de montrer que nous pouvons faire notre part au sein de la tech française.”, souligne Alexandre Buisine.
Enix a ainsi su relever les défis de scalabilité, de performance et de résilience posés par Mistral AI, tout en restant fidèle à son ADN : proposer des architectures cloud sur mesure, bâties sur des technologies open source robustes, et garantir un Run de qualité en 24/7.
Le chemin parcouru ensemble
Mobilisée en 2023 pour mettre en place la première infrastructure d’inférence en moins de 10 jours, Enix a relevé le défi et a eu le plaisir de contribuer à la création des services publics de Mistral AI aujourd’hui très largement utilisés.
A cette époque, les GPUs Nvidia H100 étaient encore très peu disponibles chez les fournisseurs cloud, avec un support parfois défaillant. Les équipes Enix ont dû mettre en place une solution de contournement face à un bug bloquant sur Azure AKS : lié aux drivers des instances des GPUs H100, le correctif officiel de Microsoft n’a été publié que cinq mois plus tard.
Ce projet incarne aussi la manière dont Enix construit et assume la responsabilité d’infrastructures sur mesure pour soutenir l’ambition technologique d’un acteur comme Mistral AI.
Au-delà de la réussite technique, c’est une dynamique de confiance et de co-construction qui s’est installée entre les équipes techniques des deux sociétés. Aujourd’hui en cogérance entre les deux entités, les opérations ont par le passé reposé uniquement sur l’équipe Enix, laissant le temps à Mistral AI de constituer des équipes renforcées puis de ré internaliser la gestion opérationnelle.
Enix reste mobilisé aux côtés de Mistral AI pour adapter et faire évoluer cette plateforme, avec le même niveau d’exigence, d’agilité et d’engagement que jusqu’à présent !