DeepSeek a publié des versions aperçu de DeepSeek-V4-Pro et DeepSeek-V4-Flash le 24 avril 2026, deux modèles open-weight avec des fenêtres de contexte d’un million de tokens et des prix nettement inférieurs à ceux des alternatives occidentales comparables. Le modèle V4-Pro coûte 1,74 $ par million de tokens d’entrée et 3,48 $ par million de tokens de sortie — environ 1/20e du prix de Claude Opus 4.7 et 98 % de moins que GPT-5.5 Pro, selon les spécifications officielles de l’entreprise.

Architecture du modèle et ampleur

DeepSeek-V4-Pro affiche 1,6 trillion de paramètres totaux, ce qui en fait le plus grand modèle open-source du marché LLM à ce jour. Cependant, seuls 49 milliards de paramètres s’activent par passe d’inférence, en utilisant ce que DeepSeek appelle l’approche Mixture-of-Experts, affinée depuis V3. Cette conception permet de laisser le modèle complet en sommeil, tandis que seules des portions pertinentes s’activent pour chaque requête donnée, réduisant les coûts de calcul tout en conservant la capacité de connaissance.

DeepSeek-V4-Flash fonctionne à plus petite échelle avec 284 milliards de paramètres totaux et 13 milliards de paramètres actifs. D’après les benchmarks de DeepSeek, il « atteint des performances de raisonnement comparables à celles de la version Pro lorsqu’on lui donne un budget de réflexion plus important ».

Les deux modèles prennent en charge un million de tokens de contexte comme fonctionnalité standard — environ 750 000 mots, ou à peu près l’ensemble de la trilogie « Le Seigneur des anneaux » plus du texte supplémentaire.

Innovation technique : mécanismes d’attention à grande échelle

DeepSeek a résolu le problème d’échelle computationnelle inhérent au traitement des longs contextes en inventant deux nouveaux types d’attention, détaillés dans l’article technique de l’entreprise disponible sur GitHub.

Les mécanismes d’attention standard de l’IA font face à un problème d’échelle brutal : à chaque fois que la longueur de contexte double, le coût de calcul quadruple environ. La solution de DeepSeek implique deux approches complémentaires :

Compressed Sparse Attention fonctionne en deux étapes. Elle compresse d’abord des groupes de tokens — par exemple, chaque 4 tokens — en une seule entrée. Ensuite, au lieu d’effectuer une attention sur toutes les entrées compressées, elle utilise un « Lightning Indexer » pour ne sélectionner que les résultats les plus pertinents pour toute requête donnée. Cela réduit le périmètre de l’attention du modèle d’un million de tokens à un ensemble beaucoup plus restreint de chunks importants.

Heavily Compressed Attention adopte une approche plus agressive, en réduisant 128 tokens en une seule entrée, sans sélection clairsemée. Bien que cela fasse perdre le détail fin, cela fournit une vue globale extrêmement peu coûteuse. Les deux types d’attention s’exécutent dans des couches alternées, permettant au modèle de conserver à la fois le détail et la vue d’ensemble.

Le résultat : V4-Pro utilise 27 % du calcul que son prédécesseur (V3.2) avait requis. Le KV cache — la mémoire nécessaire pour suivre le contexte — tombe à 10 % de V3.2. V4-Flash pousse l’efficacité encore plus loin : 10 % de calcul et 7 % de mémoire par rapport à V3.2.

Performances en benchmark et position concurrentielle

DeepSeek a publié des comparaisons de benchmarks complètes contre GPT-5.4 et Gemini-3.1-Pro, y compris des domaines où V4-Pro est en retrait par rapport aux concurrents. Sur les tâches de raisonnement, le raisonnement de V4-Pro est en retard sur GPT-5.4 et Gemini-3.1-Pro d’environ trois à six mois, d’après le rapport technique de DeepSeek.

Où V4-Pro mène :

Codeforces (programmation compétitive) : V4-Pro a obtenu 3 206, le plaçant autour de la 23e place parmi les participants humains réels aux concours
Apex Shortlist (problèmes mathématiques et STEM sélectionnés avec soin) : taux de réussite de 90,2 % contre 85,9 % pour Opus 4.6 et 78,1 % pour GPT-5.4
SWE-Verified (résolution de problèmes GitHub) : 80,6 %, en correspondance avec Claude Opus 4.6

Où V4-Pro est en retrait :

MMLU-Pro (multitâche) : Gemini-3.1-Pro à 91,0 % contre V4-Pro à 87,5 %
GPQA Diamond (connaissances d’expert) : Gemini à 94,3 contre V4-Pro à 90,1
Humanity’s Last Exam (niveau universitaire) : Gemini-3.1-Pro à 44,4 % contre V4-Pro à 37,7 %

Sur les tâches à long contexte, V4-Pro mène les modèles open-source et bat Gemini-3.1-Pro sur CorpusQA (simulant une analyse réelle de documents à un million de tokens), mais perd face à Claude Opus 4.6 sur MRCR, qui mesure la récupération d’informations spécifiques enfouies profondément dans de longs textes.

Capacités agentiques et de codage

V4-Pro peut fonctionner dans Claude Code, OpenCode et d’autres outils de codage IA. D’après l’enquête interne de DeepSeek auprès de 85 développeurs qui ont utilisé V4-Pro comme agent de codage principal, 52 % ont déclaré qu’il était prêt à être leur modèle par défaut, 39 % ont penché pour oui, et moins de 9 % ont dit non. Les tests internes de DeepSeek ont indiqué que V4-Pro surpasse Claude Sonnet et se rapproche de Claude Opus 4.5 sur les tâches de codage agentique.

Artificial Analysis a classé V4-Pro premier parmi tous les modèles open-weight sur GDPval-AA, un benchmark testant un travail de connaissance économiquement précieux dans les domaines de la finance, du juridique et de la recherche. V4-Pro-Max a obtenu 1 554 Elo, devant GLM-5.1 (1 535) et MIn iMax’s M2.7 (1 514). Claude Opus 4.6 obtient 1 619 sur le même benchmark.

V4 introduit la « réflexion entrelacée », qui conserve toute la chaîne de pensée au fil des appels aux outils. Dans les modèles précédents, lorsqu’un agent effectuait plusieurs appels d’outils — comme chercher sur le web, exécuter du code, puis chercher à nouveau — le contexte de raisonnement du modèle était vidé entre les tours. V4 maintient la continuité du raisonnement d’une étape à l’autre, empêchant la perte de contexte dans des workflows automatisés complexes.

Paysage concurrentiel et contexte de tarification

La sortie V4 arrive au milieu d’une activité significative dans le secteur de l’IA. Anthropic a livré Claude Opus 4.7 le 16 avril 2026. OpenAI a lancé GPT-5.5 le 23 avril 2026, avec GPT-5.5 Pro au prix de $30 par million de tokens d’entrée$180 et (par million de tokens de sortie). GPT-5.5 bat V4-Pro sur Terminal Bench 2.0 (82,7 % versus 70,0 %), ce qui teste des workflows complexes d’agents en ligne de commande.

Xiaomi a publié MiMo V2.5 Pro le 22 avril 2026, offrant des capacités multimodales complètes $1 image, audio, vidéo$3 à (entrée et )sortie par million de tokens. Tencent a publié Hy3 le même jour que GPT-5.5.

Pour se faire une idée des prix : le PDG de Cline, Saoud Rizwan, a noté que si Uber avait utilisé DeepSeek plutôt que Claude, son budget IA 2026 — apparemment suffisant pour quatre mois d’utilisation — aurait duré sept ans.

![Pricing comparison and Uber budget analysis]https://img-cdn.gateio.im/social/moments-0ee5a4bf95-cbc5686e31-8b7abd-badf29

Déploiement et disponibilité

V4-Pro et V4-Flash sont sous licence MIT et disponibles sur Hugging Face. Pour l’instant, les modèles sont uniquement textuels ; DeepSeek a déclaré travailler sur des capacités multimodales. Les deux modèles peuvent être exécutés gratuitement sur du matériel local ou personnalisés en fonction des besoins de l’entreprise.

Les endpoints deepseek-chat existants de DeepSeek et deepseek-reasoner acheminent déjà respectivement vers V4-Flash en modes non-réflexion et réflexion. Les anciens endpoints deepseek-chat et deepseek-reasoner prendront fin le 24 juillet 2026.

DeepSeek a entraîné V4 en partie sur des puces Huawei Ascend, en contournant les restrictions d’exportation américaines. L’entreprise a déclaré qu’une fois que 950 nouveaux supernœuds seront mis en ligne plus tard en 2026, le prix déjà bas du modèle Pro baissera davantage.

Implications pratiques

Pour les entreprises, la structure de tarification peut faire évoluer les calculs coût-bénéfice. Un modèle qui mène des benchmarks open-source à 1,74 $ par million de tokens d’entrée rend le traitement à grande échelle de documents, la revue juridique et les pipelines de génération de code substantiellement moins chers que six mois auparavant. Le contexte d’un million de tokens permet de traiter des bases de code entières ou des dépôts réglementaires en une seule requête plutôt que de les découper en plusieurs appels.

Pour les développeurs et les concepteurs indépendants, V4-Flash est la considération principale. À 0,14 $ en entrée et 0,28 $ en sortie par million de tokens, il est moins cher que les modèles considérés comme des options économiques il y a un an tout en gérant la plupart des tâches que la version Pro accomplit.

Afficher la source

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

AprDaydream

· Il y a 9h

J'espère que l'officiel fournira un mécanisme de journal d'action/relecture auditable, sinon il sera difficile de tenir pour responsable en cas de problème, surtout pour les comptes d'actifs gérés automatiquement.

Voir l'originalRépondre0

PaperHandsPro

· Il y a 9h

La « compréhension de l'intention » dans les applications réelles est le véritable défi, espérons qu'il n'y aura plus d'embarras où, lorsque vous souhaitez réserver un billet d'avion, il modifie votre CV à la place.

Voir l'originalRépondre0

Half-SectionedSucculent

· Il y a 9h

Un peu d'attente, et un peu de peur : pouvoir cliquer avec la souris équivaut à pouvoir faire beaucoup de choses que seul un « clic humain » peut réaliser, la gestion des risques et la lutte contre la fraude doivent être améliorées.

Voir l'originalRépondre0

ACalmnessWithAHintOfPomelo

· Il y a 9h

Cette vague aura également un impact sur le Web3, si l'automatisation des opérations en chaîne, le processus de signature et l'interaction avec le portefeuille pouvaient être réalisés de manière transparente, la forme du produit changerait.

Voir l'originalRépondre0

StarsInTheGlassDome

· Il y a 9h

API et les prix ne sont pas encore prioritaires, regardons d'abord s'il peut résister aux pop-ups, aux multi-fenêtres et aux fluctuations du réseau dans un environnement de bureau complexe.

Voir l'originalRépondre0

GateUser-b665e41c

· Il y a 9h

On a l'impression que l'évolution va de « savoir parler et écrire » à « savoir faire et livrer », la prochaine étape consiste à lui offrir une meilleure mémoire et une gestion des tâches améliorée.

Voir l'originalRépondre0

LintCollector

· Il y a 9h

Si cela pouvait vraiment s'interconnecter entre différentes applications : rechercher des informations dans le navigateur → traiter dans Excel → créer la présentation dans PowerPoint → envoyer par email, alors ce serait une boucle complète de processus de travail.

Voir l'originalRépondre0

DegenWithNotebook

· Il y a 9h

Enfin, une opération native sur le bureau ? Il va vraiment devoir devenir un « stagiaire numérique ».

Voir l'originalRépondre0