
DeepSeek a officiellement lancé la série d’aperçu V4 le 24 avril, avec un code source ouvert sous licence MIT ; les poids du modèle ont été mis en ligne sur Hugging Face et ModelScope. D’après le rapport technique de DeepSeek V4, V4-Pro-Max (mode de puissance de raisonnement maximale) obtient 3206 points sur le benchmark Codeforces, dépassant GPT-5.4.
D’après le rapport technique de DeepSeek V4, la série V4 comprend deux modèles à experts spécialisés (MoE) :
V4-Pro : 1,6T de paramètres au total, 49B d’activation par token, prise en charge d’un contexte de 1M tokens
V4-Flash : 284B de paramètres au total, 13B d’activation par token, prise en charge d’un contexte de 1M tokens
D’après le rapport technique, en contexte de 1M tokens, l’inférence FLOPs par token de V4-Pro n’est que 27% de celui de V3.2, le cache KV passe à seulement 10% de celui de V3.2. Cela est principalement dû à la mise à niveau d’architecture de l’attention mixte (CSA — attention clairsemée compressée + HCA — attention fortement compressée). La taille des données de pré-entraînement dépasse 32T tokens ; l’optimiseur d’entraînement a été mis à jour vers Muon.
D’après le rapport technique de DeepSeek V4, la mise à jour centrale du post-entraînement de V4 réside dans le remplacement complet du stade d’apprentissage par renforcement mixte (mixed RL) de V3.2 par une distillation de politique en ligne (On-Policy Distillation, OPD). Le nouveau processus se divise en deux étapes : d’abord, entraîner séparément des experts spécialisés (SFT + apprentissage par renforcement GRPO) pour des domaines tels que les mathématiques, le code, les agents et le suivi d’instructions ; ensuite, distiller les capacités d’une dizaine d’experts vers un modèle unifié à l’aide de multiples enseignants OPD, en alignant les logits pour éviter les conflits de capacités courants dans les méthodes traditionnelles.
Le rapport introduit également un modèle génératif de récompense (Generative Reward Model, GRM) : pour les tâches difficiles à valider par des règles, l’entraînement est effectué avec une petite quantité de données d’annotation humaine diversifiées, afin que le modèle assure à la fois des fonctions de génération et d’évaluation.
D’après le rapport technique de DeepSeek V4, les résultats de comparaison de V4-Pro-Max avec Opus 4.6 Max, GPT-5.4 xHigh et Gemini 3.1 Pro High (sans inclure le GPT-5.5 et Opus 4.7 publiés récemment) :
Codeforces : 3206 (GPT-5.4 : 3168 / Gemini 3.1 Pro : 3052) → meilleur score de toute la compétition
LiveCodeBench : 93.5 → meilleur score de toute la compétition
SWE Verified : 80.6, en retard sur Opus 4.6 à 80.8, soit 0,2 point de pourcentage
GPQA Diamond : 90.1, en retard sur Gemini 3.1 Pro à 94.3
SimpleQA-Verified : 57.9, en retard sur Gemini 3.1 Pro à 75.6
HLE : 37.7, en retard sur Gemini 3.1 Pro à 44.4
Le rapport technique indique également que les comparaisons ci-dessus ne tiennent pas compte du GPT-5.5 et d’Opus 4.7 récemment publiés ; l’écart entre V4 et les modèles fermés de dernière génération reste à confirmer par des évaluations indépendantes.
D’après l’annonce officielle du 24 avril de DeepSeek, la série V4 est open source sous licence MIT ; les poids du modèle ont été mis en ligne sur Hugging Face et ModelScope, utilisables pour des usages commerciaux et universitaires.
D’après le rapport technique de DeepSeek V4, V4-Pro a 1,6T de paramètres au total, avec 49B d’activation par token ; V4-Flash a 284B de paramètres au total, avec 13B d’activation par token ; les deux modèles prennent en charge un contexte de 1M tokens.
D’après le rapport technique de DeepSeek V4, V4-Pro-Max dépasse GPT-5.4 et Gemini 3.1 Pro sur deux benchmarks : Codeforces (3206 points) et LiveCodeBench (93.5), mais reste en retrait sur les benchmarks à forte densité de connaissances (GPQA Diamond, SimpleQA-Verified, HLE) par rapport à Gemini 3.1 Pro ; le groupe de comparaison ne comprend pas GPT-5.5 et Opus 4.7.
Articles similaires
DeepSeek cherche un financement de 1,8 milliard de dollars avec une valorisation de $20B au milieu d’une vague de départs de talents
Le juge rejette les allégations de fraude dans la plainte d’Elon Musk contre OpenAI ; l’affaire progresse vers un procès avec deux allégations restantes
Le PDG d'OpenAI, Sam Altman, s'excuse d'avoir omis de signaler à la police le compte banni du tireur de l'école
Les Émirats arabes unis annoncent une transition vers un modèle de gouvernement basé sur l’IA au cours des deux prochaines années
La plateforme de trading d’IA Fere AI lève 1,3 M$ de fonds, menée par Ethereal Ventures
Google augmente avec 40 milliards de dollars d’investissement dans Anthropic : d’abord 10 milliards, puis libération de 30 milliards en fonction des résultats, avec une puissance de calcul de 5 GW de TPU