Dans le prolongement du modèle V3.2 de 685 milliards de paramètres, présenté début décembre, la start-up chinoise franchit une étape avec l’introduction de deux versions beta de son dernier LLM V4. Avec cette génération, l’entreprise ne se contente pas d’augmenter les performances : elle cherche à repositionner son modèle autour des usages agentiques, tout en réduisant significativement les coûts d’inférence. DeepSeek présente ainsi V4 comme capable de rivaliser avec les meilleurs modèles propriétaires américains, en combinant montée en puissance et optimisation des ressources.

Deux modèles pour des usages spécifiques

La société décline son LLM en deux versions au positionnement distinct. La version V4-Pro cible la performance maximale. Elle repose sur une architecture massive de 1,6 trillion de paramètres, dont 49 milliards activés dynamiquement via une approche mixture of experts. Selon l’éditeur, ce modèle a été entraîné sur environ 33 trillions de tokens. Il se positionne directement face aux modèles propriétaires les plus avancés, avec des performances revendiquées supérieures à Sonnet 4.5 et proches d'Opus 4.5, selon le protocole interne de DeepSeek. Sur les tâches de raisonnement, le modèle domine nettement sur Apex (90,2 %) et Codeforces (3206), et se montre compétitif sur HLE, tout en restant derrière Gemini sur SimpleQA. Côté capacités agentiques, les écarts se resserrent : DeepSeek atteint un niveau proche de ses concurrents sur SWE Verified (environ 80 %), mais se situe en retrait sur Terminal Bench et Toolathlon face à GPT-5.4.

À l’inverse, V4-Flash adopte une approche plus frugale. Ce modèle MoE de 284 milliards de paramètres n’en active que 13 milliards à chaque inférence. Il est optimisé pour la rapidité d’exécution et la réduction des coûts, tout en conservant des capacités élevées. Malgré ces différences, les deux modèles partagent une caractéristique clé : une fenêtre de contexte étendue à un million de tokens. Cette capacité offre la possibilité d’ingérer de très grands volumes de données en une seule requête, un atout pour les cas d’usage complexes. Les deux versions sont déjà disponibles en accès ouvert sur la plateforme Hugging Face. 

Une architecture optimisée pour réduire mémoire et calcul

Ce repositionnement s’accompagne d’évolutions techniques significatives. L'entreprise met notamment en avant une architecture d’attention hybride combinant Compressed Sparse Attention et Heavy Compressed Attention. L’enjeu est double : réduire la charge de calcul tout en optimisant fortement la mémoire KV cache, qui stocke l’état du modèle pendant l’inférence. D’après l’éditeur, tout ceci diminue l’empreinte mémoire d’un facteur compris entre 9,5 et 13,7 par rapport à la génération précédente, sans sacrifier la taille de la fenêtre de contexte. Dans la continuité de cette démarche, DeepSeek poursuit également ses efforts en matière de précision numérique. Le modèle V4 introduit ainsi une combinaison FP8/FP4 division par deux la quantité de mémoire pour accélérer la performance. Afin de limiter les pertes de précision, notamment dans les architectures mixture of experts, ces choix sont accompagnés de techniques de quantization aware training.

Parallèlement, l’éditeur introduit un optimiseur, baptisé Muon, destiné à accélérer la convergence et à améliorer la stabilité de l’entraînement. Ces évolutions s’inscrivent dans une stratégie plus large de réduction des ressources nécessaires, qui se reflète également sur le plan matériel. Alors que les versions précédentes étaient principalement optimisées pour les GPU Hopper de Nvidia, DeepSeek indique avoir validé V4 aussi sur les accélérateurs Ascend de Huawei, sans plus de détails.

Une tarification API agressive 

L'éditeur accompagne ce lancement d’une tarification API particulièrement compétitive. La version Flash s’établit à 0,14 dollar par million de tokens en entrée et 0,28 dollar en sortie, des niveaux inférieurs à ceux de GPT-5.4 Nano, Gemini 3.1 Flash et Claude Haiku 4.5. La version Pro est proposée à 0,145 dollar en entrée et 3,48 dollars en sortie par million de tokens, également en dessous de Gemini 3.1 Pro, GPT-5.5 et Claude Opus 4.7. Dans ce cadre, les anciennes interfaces deepseek-chat et deepseek-reasoner basculeront automatiquement vers V4-Flash et seront retirées à partir du 24 juillet 2026.