Meta dévoile son modèle multimodal de raisonnement Muse Spark

Fruit des développements de Meta dans le cadre de son initiative Superintelligence, la première itération du modèle de raisonnement multimodal Muse Spark affiche de bons résultats dans plusieurs benchmarks face aux LLM concurrents d'Anthropic, Google, Grok et OpenAI.

Cela fait de nombreux mois que Meta travaille sur sa prochaine génération de modèles issus de ses travaux dans le domaine de son projet Superintelligence. Le temps est venu pour le fournisseur de faire état de ses avancées avec l’annonce du premier représentant de sa gamme de modèle multimodal de raisonnement Muse Spark. Taillé pour plusieurs domaines allant de l'utilisation d'outils, à la chaine de pensée visuelle en passant par la coordination multi-agents, Muse Spark est disponible depuis le 8 avril via une API en bêta privée pour certains utilisateurs.” Muse Spark affiche des performances compétitives dans les domaines de la perception multimodale, du raisonnement, de la santé et des tâches impliquant des agents”, a expliqué Meta. Le fournisseur reconnait cependant que des lacunes existent encore dans les processus agentiques long-terme et de codage.

Concernant les capacités multimodales de son dernier modèle, Meta indique que Muse Spark propose “d'excellentes performances dans le traitement des questions visuelles, la reconnaissance d'entités et la localisation. Ce LLM surpasse Claude 4.6 Opus, Gemini 3.1 Pro et GPT 5.4 dans plusieurs benchmarks comme HealthBench Hard, évaluant la capacité à répondre à des questions médicales. Il réalise ainsi un score de 42.8 contre 40.1 pour GPT 5.4 Xhigh, 20.6 pour Gemini 3.1 Pro High, 20.3 pour Grok 4.2 Reasoning, et 14.8 pour Claude Opus 4.6 Max. Rien de vraiment étonnant à cela car il s’agit d’un axe de développement majeur pour Meta : “L'une des principales applications de la superintelligence personnelle consiste à aider les gens à mieux comprendre leur santé et à l'améliorer”, explique le fournisseur. Pour améliorer les capacités de raisonnement de son modèle en matière de santé, la société indique avoir collaboré avec plus de 1 000 médecins pour sélectionner des données d'entraînement permettant d'obtenir des réponses plus factuelles et plus complètes. “Muse Spark est capable de générer des affichages interactifs qui détaillent et expliquent des informations de santé telles que la valeur nutritionnelle de divers aliments ou les muscles sollicités pendant l'exercice”, poursuit Meta.

Extrait des performances comparées de Muse Spark face à la concurrence. (crédit : Meta)

A la traine dans certains benchmarks

Dans le mode « Contemplating », qui coordonne plusieurs agents raisonnant en parallèle, Muse Spark rivalise aussi avec les modes de raisonnement extrêmes de modèles de pointe tels que Gemini Deep Think et GPT Pro. Le mode « Contemplating » apporte des améliorations significatives en termes de performances dans des tâches complexes, avec un score de 58 % au test « Humanity’s Last Exam » et de 38 % dans le cadre de la recherche « FrontierScience ». En revanche il est à la traine dans d’autres comparatifs comme LiveCodeBenchPro avec un score de 80 contre 87.5 pour GPT 5.4 xHigh, ou Terminal-Bench 2.0 (score de 59 versus 75.1 GPT 5.4 xHigh). Et il s’avère décevant au test ARC AGI 2 mesurant les capacités d’un modèle spécifiquement conçu pour des tâches d'intelligence artificielle générale. Muse Spark affiche ainsi un score de 42.5, loin de tous ses concurrents Gemini 3.1 Pro High (76.5), GPT 5.4 xHigh (76.1), Claude Opus 4.6 Max (63.3) et Grok 4.2 Reasoning (53.3).