Si l’on en croit les résultats du dernier benchmark d'Alibaba Cloud, son dernier LLM Qwen3-Max-Thinking est très performant et compétitif par rapport aux LLM concurrents GPT-5.2-Thinking d'OpenAI, Claude-Opus-4.5 d'Anthropic, et Gemini 3 Pro de Google. Le fournisseur s'avance même pour dire qu'il pourrait bien être l'un des moteurs de raisonnement les plus avancés au monde. Dans un billet de blog, le fournisseur chinois a déclaré que le modèle avait été entraîné à l'aide de capacités étendues et de ressources de calcul à grande échelle, notamment l'apprentissage par renforcement, améliorant ainsi la précision factuelle, le raisonnement, le respect des instructions, l'alignement avec les préférences humaines et les capacités de type agent. « Sur 19 benchmarks établis, Qwen3-Max-Thinking affiche des performances comparables à celles des modèles leaders comme GPT-5.2-Thinking, Claude-Opus-4.5 et Gemini 3 Pro », s’est félicitée l'entreprise. Qwen3-Max-Thinking bénéficie de deux améliorations majeures : l'utilisation d'outils adaptatifs qui permettent au modèle de récupérer des informations ou d'exécuter du code selon les besoins, et des techniques de mise à l'échelle au moment du test qui, selon Alibaba, offrent des performances de raisonnement supérieures à celles de Gemini 3 Pro de Google sur certains benchmarks.
L’annonce a été accueillie avec prudence par les analystes. Les résultats des benchmarks évaluent la performance dans des conditions spécifiques, « mais les responsables IT des entreprises peuvent déployer des modèles de fondation dans divers cas d’usage et dans différents environnements informatiques », a fait valoir Lian Jye Su, analyste en chef chez Omdia. « Mais, même si les modèles Qwen peuvent apparaître comme des alternatives légitimes aux modèles occidentaux traditionnels, leurs performances doivent encore être évaluées dans le cadre de tâches spécifiques à un domaine, tout comme leur adaptabilité et leur personnalisation », a déclaré M. Su. « Il est également essentiel d'évaluer leur évolutivité et leur efficacité lorsqu'ils sont exécutés sur l'infrastructure Alibaba Cloud, qui fonctionne différemment de Google Cloud Platform et Azure », a-t-il souligné.

Performances comparées de Qwen 3 par rapport à d'autres LLM d'Anthropic, Deepseek et Google. (crédit : Alibaba)
Un choix de fournisseurs LLM plus large
Le lancement de Qwen3-Max-Thinking devrait donner un nouvel élan aux stratégies de diversification des modèles d'IA au sein des entreprises. « Maintenant que les modèles Qwen ont montré qu'ils constituaient des alternatives légitimes aux modèles occidentaux, les DSI devraient les prendre en considération lorsqu'ils évaluent les modèles de tarification, les conditions de licence et le coût total de possession de leurs projets d'IA », a estimé M. Su. « Leur fonctionnement sur Alibaba Cloud laisse penser que leur coût de possession est probablement plus efficace, en particulier dans la région Asie-Pacifique, ce qui est une excellente nouvelle pour les entreprises mondiales qui cherchent à pénétrer le marché chinois ou les marchés favorables à la Chine. » Selon Charlie Dai, analyste principal chez Forrester, les scores de compétitivité des modèles Qwen élargissent l’offre de fournisseurs viables et rendent la diversification plus attrayante. « Pour les DSI qui gèrent la souveraineté numérique et la rentabilité, des alternatives solides changent l'équation stratégique, et la parité croissante des modèles augmente la viabilité des portefeuilles mixtes qui équilibrent souveraineté, conformité et vitesse d'innovation », a déclaré M. Dai.
D'autres analystes pensent par ailleurs que la dynamique des benchmarks peut également influencer la façon dont les DSI envisageaient les stratégies multimodèles. « Ces benchmarks constituent un bon outil non seulement pour surveiller les performances, mais aussi pour évaluer quelles entreprises investissent sérieusement et de manière cohérente dans les capacités et l'adoption des modèles de fondation », a fait remarquer Neil Shah, vice-président de la recherche chez Counterpoint Research. « Cela peut jouer un rôle dans la manière dont les DSI envisagent la diversification vers des stratégies multimodèles afin d'éviter de mettre tous leurs œufs dans le même panier, tout en évaluant les performances, la rentabilité et les obstacles géopolitiques. » Cela dit, les DSI devront tenir compte de la disponibilité de ces modèles en dehors de la région Asie-Pacifique, ainsi que d'autres facteurs comme les contrôles à l'exportation et la conformité aux réglementations locales. « La question la plus importante est de savoir comment les DSI adoptent les modèles américains par rapport aux modèles non américains en fonction des cas d’usage de l'IA », s’est demandé M. Shah. « Lorsque la fiabilité et la conformité sont essentielles, les entreprises, en particulier sur les marchés occidentaux, privilégieront les modèles américains propriétaires, tandis que les modèles chinois hautement performants pourront être utilisés pour les charges de travail non critiques. »
Plus de défis de gouvernance et de conformité
Les tensions géopolitiques ajoutent une couche supplémentaire de complexité pour les entreprises qui évaluent des modèles comme Qwen3-Max-Thinking. Selon M. Dai, cela nécessite un examen plus approfondi des détails opérationnels, en particulier en ce qui concerne les journaux système, les mécanismes de mise à jour des modèles et la manière dont les données circulent au-delà des frontières. Selon lui, les évaluations des entreprises devraient aller au-delà des tests de performance pour inclure des exercices de type « red team », une isolation stricte des données sensibles et une mise en conformité avec les frameworks internes de gestion des risques et de la conformité. « Les entreprises qui évaluent les modèles hébergés par Alibaba Cloud doivent examiner de près la manière dont les contrôles de sécurité de l'IA, l'isolation des données et l'auditabilité sont mis en œuvre dans la pratique, et pas seulement sur le papier », a recommandé M. Su. « Même si la plupart des fournisseurs de cloud proposent désormais des déploiements dans la région ou sur site pour répondre aux règles de souveraineté, les DSI doivent encore évaluer si ces contrôles respectent les seuils de risque internes, en particulier lorsque des données sensibles ou réglementées sont concernées. »

Commentaire