Face à la dominance des LLM anglo-saxons ou chinois, le projet EuroLLM entend se démarquer à travers le nombre de langues adressées et son caractère totalement open source. Le modèle a été développé par l’Universidade de Lisboa (Instituto Superior Técnico), l’Université d’Édimbourg, l’Université Paris‑Saclay, Sorbonne Université, Naver Labs, Unbabel et l’Université d’Amsterdam. EuroLLM a également reçu le soutien des programmes européens comme Horizon Europe pour financer la recherche et l’innovation et EuroHPC dédiée au calcul haute performance. Au sein du laboratoire MICS (Mathématique, informatique et système complexe) de CentraleSupélec, deux doctorants en informatique Hippolyte Gisserot-Boukhlef et Nicolas Boizard ont développé le modèle EuroLLM-22B (22,6 milliards de paramètres), entraîné sur le supercalculateur MareNostrum 5 du Barcelona Supercomputing Center.
Dès sa conception, EuroLLM-22B a voulu intégrer les 24 langues officielles de l’Union européenne. Il a ajouté 11 langues supplémentaires parmi lesquelles l’arabe, le catalan, le galicien, le norvégien, le russe, le turc, l’ukrainien, le chinois, l’hindi, le japonais et le coréen. Au démarrage, le groupe universitaire EuroLLM a livré un premier modèle modeste avec 1,7 milliard, puis 9 milliards de paramètres. « Nous avons progressivement augmenté l’échelle pour relever des tâches de complexité croissante : mathématiques, code, traduction », explique Hippolyte Gisserot-Boukhlef. Aujourd’hui, le modèle atteint 22,6 milliards de paramètres. Les premiers résultats donnent de bonnes performances dans la compréhension, la traduction et la génération de texte multilingue.
Un ADN complétement open source
L’autre aspect sur lequel insiste le co-fondateur d’EuroLLM-22B, c’est le caractère complètement open source du LLM. « En partant d’un modèle existant, même open weight, une partie de la recette d’entrainement reste inconnue. Or pour revendiquer le full open source, il faut que tout soit transparent : poids, données et méthodologie », souligne-t-il. Une référence à la distinction entre les fournisseurs qui proposent des LLM dits ouverts comme Llama, Gemma, Qwen ou Deepseek, mais qui ne publient pas leurs données d’entraînement. EuroLLM-22B, qui a utilisé un dataset de 4 000 milliards de tokens pour son training en puissant dans les ressources de Wikipédia et Arvix (travaux de recherche universitaires), se compare à des modèles comme Olmo développé par AI2 et Apertus élaboré par un consortium d’universités suisses.
Pour les développements futurs d’EuroLLM, plusieurs pistes sont explorées. « Nous travaillons sur des architectures de type Mixture of Experts, qui offre la possibilité de réduire les coûts de calcul tout en maintenant un haut niveau de performance », précise Nicolas Boizard. Par ailleurs, la multimodalité (audio et vidéo) est un axe de réflexion en s’appuyant sur les capacités de calcul du supercalculateur Jupiter à partir de 2026. « L’objectif est de créer des modèles performants sur plusieurs types de données, de les combiner et d’améliorer globalement leurs résultats », conclut le co-fondateur.

Commentaire