DeepSeek V4 est là—sa version Pro coûte 98 % de moins que GPT 5.5 Pro

###En résumé

  • DeepSeek a lancé son nouveau modèle V4-Pro avec 1,6 trillion de paramètres.
  • Il coûte 1,74 $ / 3,48 $ par million de tokens d’entrée/sortie, soit environ 1/20e du prix de Claude Opus 4.7 et 98 % de moins que GPT 5.5 Pro.
  • DeepSeek a entraîné V4 en partie sur des puces Huawei Ascend, contournant ainsi les restrictions d’exportation américaines, et affirme qu’une fois 950 nouveaux supernœuds en ligne plus tard en 2026, le prix déjà bas du modèle Pro baissera encore.

DeepSeek est de retour, et il est apparu quelques heures après qu’OpenAI a lancé GPT-5.5. Coïncidence ? Peut-être. Mais si vous êtes un laboratoire d’IA chinois que le gouvernement américain tente de ralentir avec des interdictions d’exportation de puces depuis trois ans, votre sens du timing devient très précis. Le laboratoire basé à Hangzhou a publié aujourd’hui des versions de prévisualisation de DeepSeek-V4-Pro et DeepSeek-V4-Flash, toutes deux avec des poids ouverts, toutes deux avec des fenêtres de contexte d’un million de tokens. Cela signifie que vous pouvez essentiellement travailler avec un contexte d’environ la taille de la trilogie Le Seigneur des Anneaux avant que le modèle ne s’effondre. Les deux sont également bien moins chers que tout ce qui est comparable en Occident, et tous deux sont gratuits pour ceux capables de faire tourner localement. La dernière grande disruption de DeepSeek—R1 en janvier 2025—a fait perdre 1,3 milliard de dollars à Nvidia en une seule journée, alors que les investisseurs se demandaient si les entreprises américaines avaient vraiment besoin d’investissements aussi importants pour produire des résultats qu’un petit laboratoire chinois a réalisé avec une fraction du coût. V4 est une autre sorte de mouvement : plus discret, plus technique, et plus axé sur l’efficacité pour tous ceux qui construisent réellement avec l’IA.

Deux modèles, des tâches très différentes  Parmi les deux nouveaux modèles, le V4-Pro de DeepSeek est le gros, avec 1,6 trillion de paramètres au total. Pour mettre cela en perspective, les paramètres sont les “réglages” internes ou “cellules cérébrales” qu’un modèle utilise pour stocker des connaissances et reconnaître des motifs—plus un modèle a de paramètres, plus il peut théoriquement contenir d’informations complexes. Cela en fait le plus grand modèle open-source sur le marché des LLM à ce jour. La taille peut sembler ridicule jusqu’à ce que vous appreniez qu’il n’active que 49 milliards d’entre eux par passage d’inférence.
C’est la technique du Mélange d’Experts que DeepSeek a perfectionnée depuis V3 : le modèle complet reste là, mais seule la tranche pertinente s’éveille pour toute requête donnée. Plus de connaissances, même facture de calcul. « DeepSeek-V4-Pro-Max, le mode de raisonnement maximal de DeepSeek-V4-Pro, fait considérablement progresser les capacités de connaissance des modèles open-source, s’affirmant comme le meilleur modèle open-source disponible aujourd’hui », a écrit DeepSeek dans la fiche officielle du modèle sur Huggingface. « Il atteint des performances de premier ordre dans les benchmarks de codage et comble significativement l’écart avec les modèles propriétaires de pointe en raisonnement et tâches agentiques. » V4-Flash est la version pratique : 284 milliards de paramètres au total, 13 milliards actifs. Il est conçu pour être plus rapide, moins cher, et selon les propres benchmarks de DeepSeek, « atteint des performances de raisonnement comparables à la version Pro lorsqu’on lui donne un budget de réflexion plus important. »

Les deux supportent un million de tokens de contexte. C’est environ 750 000 mots—à peu près toute la trilogie « Le Seigneur des Anneaux » plus un peu. Et cela en tant que fonctionnalité standard, pas une option premium. Le secret de DeepSeek : rendre l’attention moins terrible à grande échelle Voici la partie technique pour les nerds ou ceux intéressés par la magie qui alimente le modèle. DeepSeek ne cache pas ses secrets, et tout est disponible gratuitement—le papier complet est accessible sur Github. L’attention standard de l’IA—le mécanisme qui permet à un modèle de comprendre les relations entre les mots—a un problème de mise à l’échelle brutal. Chaque fois que vous doublez la longueur du contexte, le coût de calcul quadruple environ. Donc, faire fonctionner un modèle sur un million de tokens n’est pas juste deux fois plus cher que 500 000 tokens. C’est quatre fois plus cher. C’est pourquoi un long contexte a historiquement été une case à cocher que les laboratoires ajoutent puis réduisent silencieusement derrière des limites de taux. DeepSeek a inventé deux nouveaux types d’attention pour contourner cela. Le premier, Attention Sparse Compressée, fonctionne en deux étapes. Il compresse d’abord des groupes de tokens—disons, tous les 4 tokens—en une seule entrée. Ensuite, au lieu d’attendre tous ces entrées compressées, il utilise un “Indexeur Lightning” pour ne sélectionner que les résultats les plus pertinents pour toute requête donnée. Votre modèle passe d’une attention à un million de tokens à une attention à un ensemble beaucoup plus petit de morceaux importants, un peu comme un bibliothécaire qui ne lit pas chaque livre mais sait exactement quelle étagère vérifier. Le second, Attention Très Compressée, est plus agressif. Il réduit chaque 128 tokens en une seule entrée—pas de sélection sparse, juste une compression brutale. Vous perdez en détail précis, mais vous obtenez une vue globale extrêmement bon marché. Les deux types d’attention alternent dans les couches, de sorte que le modèle obtient à la fois le détail et la vue d’ensemble.

![]$600 https://img-cdn.gateio.im/social/moments-02b21fa93c-be927f953a-8b7abd-badf29(

Le résultat, d’après le papier technique : à un million de tokens, V4-Pro utilise 27 % du calcul nécessaire à son prédécesseur )V3.2(. Le cache KV—la mémoire dont le modèle a besoin pour suivre le contexte—diminue à seulement 10 % de V3.2. V4-Flash pousse cela encore plus loin : 10 % du calcul, 7 % de mémoire. Et cela a permis à DeepSeek d’offrir un prix par token bien plus abordable que ses concurrents, tout en fournissant des résultats comparables. En termes de dollars : GPT-5.5 lancé hier avec )entrée et (sortie par million de tokens, avec GPT-5.5 Pro tarifé à )par million de tokens d’entrée et $5 par million de tokens de sortie.

DeepSeek V4-Pro coûte 1,74 $ d’entrée et 3,48 $ de sortie. V4-Flash coûte 0,14 $ d’entrée et 0,28 $ de sortie. Le PDG de Cline, Saoud Rizwan, a souligné que si Uber avait utilisé DeepSeek au lieu de Claude, son budget IA 2026—qui aurait suffi pour quatre mois d’utilisation—aurait duré sept ans.

deepseek v4 est maintenant le modèle sota le moins cher disponible, à 1/20e du coût d’opus 4.7.

pour donner une idée, si Uber avait utilisé deepseek au lieu de claude, leur budget IA 2026 aurait duré 7 ans au lieu de seulement 4 mois. pic.twitter.com/i9rJZzvRBV

— Saoud Rizwan $30 @sdrzn$30 24 avril 2026

Les benchmarks DeepSeek fait quelque chose d’inhabituel dans son rapport technique : il publie les écarts. La plupart des versions de modèles sélectionnent les benchmarks où ils gagnent. DeepSeek a effectué une comparaison complète avec GPT-5.4 et Gemini-3.1-Pro, a constaté que le raisonnement de V4-Pro est en retard d’environ trois à six mois par rapport à ces modèles, et l’a quand même publié. Où V4-Pro-Max gagne réellement : Codeforces, benchmark de programmation compétitive, évalué comme aux échecs humains. V4-Pro a obtenu 3 206, se plaçant autour de la 23e place parmi les participants humains. Sur Apex Shortlist, un ensemble de problèmes mathématiques et STEM difficiles, il a obtenu un taux de réussite de 90,2 % contre 85,9 % pour Opus 4.6 et 78,1 % pour GPT-5.4. Sur SWE-Verified, qui mesure si un modèle peut résoudre de vrais problèmes GitHub issus de dépôts open-source, il a obtenu 80,6 %—équivalent à Claude Opus 4.6.

![]$180 https://img-cdn.gateio.im/social/moments-51d4cda8e3-32b57da7d8-8b7abd-badf29(

Où il est en retard : le benchmark multitâche MMLU-Pro )Gemini-3.1-Pro à 91,0 % contre V4-Pro à 87,5 %, le benchmark de connaissances expertes GPQA Diamond (Gemini 94,3 contre V4-Pro 90,1 %, et l’Examen ultime de l’humanité, un benchmark de niveau master où Gemini-3.1-Pro à 44,4 % bat encore V4-Pro à 37,7 %. Sur le contexte long spécifiquement, V4-Pro domine les modèles open-source et bat Gemini-3.1-Pro sur le benchmark CorpusQA )un test simulant l’analyse de documents réels sur un million de tokens(, mais perd face à Claude Opus 4.6 sur MRCR—un test mesurant la capacité d’un modèle à retrouver des aiguilles spécifiques enfouies profondément dans une botte de foin très longue. Conçu pour faire fonctionner des agents, pas seulement répondre à des questions L’aspect agentique est là où cette sortie devient intéressante pour les développeurs qui déploient réellement des produits.

V4-Pro peut fonctionner dans Claude Code, OpenCode, et d’autres outils de codage IA. Selon une enquête interne de DeepSeek auprès de 85 développeurs utilisant V4-Pro comme leur agent de codage principal, 52 % ont dit qu’il était prêt à devenir leur modèle par défaut, 39 % penchaient pour oui, et moins de 9 % ont dit non. Les employés internes ont indiqué qu’il surpassait Claude Sonnet et approchait Claude Opus 4.5 sur les tâches de codage agentique.

![])https://img-cdn.gateio.im/social/moments-7950e97367-e6879bef39-8b7abd-badf29(

Artificial Analysis, qui réalise des évaluations indépendantes des modèles d’IA sur des tâches du monde réel, a classé V4-Pro en tête parmi tous les modèles à poids ouverts sur GDPval-AA—un benchmark testant le travail de connaissance économiquement précieux dans la finance, le juridique, et la recherche, évalué via Elo. V4-Pro-Max a obtenu 1 554 Elo, devant GLM-5.1 )1 535( et MiniMax M2.7 )1 514(. Pour référence, Claude Opus 4.6 marque 1 619 sur le même benchmark—toujours en avance, mais l’écart se réduit.

DeepSeek V4 Pro est le modèle à poids ouverts n°1 sur GDPval-AA, notre évaluation du travail réel agentique@deepseek_ai a publié V4 Pro )1,6T au total / 49B actifs( et V4 Flash )284B au total / 13B actifs(. V4 est la première nouvelle taille de DeepSeek depuis V3, avec tous les modèles intermédiaires… pic.twitter.com/2kJWVrKQjF

— Artificial Analysis )@ArtificialAnlys( 24 avril 2026

DeepSeek V4 introduit aussi quelque chose appelé « pensée intercalée ». Dans les modèles précédents, si vous faisiez fonctionner un agent qui appelait plusieurs outils—par exemple, il recherchait sur le web, puis exécutait du code, puis recherchait à nouveau—le contexte de raisonnement du modèle était effacé entre chaque étape. Chaque nouvelle étape, le modèle devait reconstruire son modèle mental à partir de zéro. V4 conserve toute la chaîne de pensée à travers les appels aux outils, donc un flux de travail d’un agent en 20 étapes ne souffre pas d’amnésie à mi-parcours. Cela a plus d’importance qu’il n’y paraît pour quiconque exécute des pipelines automatisés complexes. DeepSeek et la guerre IA entre la Chine et les États-Unis Les États-Unis ont restreint depuis 2022 l’exportation de puces Nvidia haut de gamme vers la Chine. L’objectif déclaré était de ralentir le développement de l’IA chinoise, mais l’interdiction de ces puces n’a pas arrêté DeepSeek et les a plutôt poussés à inventer une architecture plus efficace et à développer une offre matérielle nationale. DeepSeek n’a pas lancé V4 dans un vide—l’espace IA a été très actif récemment : Anthropic a lancé Claude Opus 4.7 le 16 avril—un modèle Decrypt testé et jugé performant en codage et raisonnement, avec une utilisation notablement élevée de tokens. La veille, Anthropic travaillait aussi sur Claude Mythos, un modèle de cybersécurité qu’elle dit ne pas pouvoir publier publiquement car il est trop performant pour les attaques autonomes sur les réseaux. Xiaomi a lancé MiMo V2.5 Pro le 22 avril, en mode multimodal—image, audio, vidéo. Coûts )entrée et (sortie par million de tokens. Il égalise Opus 4.6 sur la plupart des benchmarks de codage. Il y a trois mois, personne ne parlait de Xiaomi comme d’une entreprise d’IA de pointe. Maintenant, elle déploie des modèles compétitifs plus vite que la plupart des laboratoires occidentaux.

GPT-5.5 d’OpenAI est arrivé hier avec des coûts qui montent jusqu’à )par million de tokens de sortie dans la version Pro. Il bat V4-Pro sur Terminal Bench 2.0 (82,7 % contre 70,0 %, qui teste les flux de travail complexes d’agents en ligne de commande. Mais il coûte beaucoup plus cher que V4-Pro pour des tâches équivalentes. Le même jour, Tencent a publié Hy3, un autre modèle de pointe axé sur l’efficacité. Ce que cela signifie pour vous Avec autant de nouveaux modèles disponibles, la question que se posent réellement les développeurs : quand le premium vaut-il le coup ? Pour l’entreprise, les chiffres peuvent avoir changé. Un modèle qui domine les benchmarks open-source à 1,74 $ par million de tokens d’entrée signifie que le traitement de documents à grande échelle, la révision juridique ou la génération de code, qui étaient coûteux il y a six mois, le sont beaucoup moins. Le contexte d’un million de tokens permet d’alimenter des bases de code entières ou des dépôts réglementaires en une seule requête, plutôt que de les diviser en plusieurs appels. De plus, sa nature open-source signifie qu’il peut non seulement être utilisé gratuitement sur du matériel local, mais aussi être personnalisé et amélioré selon les besoins et cas d’usage de l’entreprise. Pour les développeurs et les indépendants, V4-Flash est à surveiller. À 0,14 $ d’entrée et 0,28 $ de sortie, il est moins cher que des modèles considérés comme des options économiques il y a un an—et il gère la plupart des tâches que la version Pro peut traiter. Les endpoints deepseek-chat et deepseek-reasoner existants de DeepSeek redirigent déjà vers V4-Flash en modes non-réflexion et réflexion respectivement, donc si vous utilisez l’API, vous l’utilisez déjà. Les modèles sont pour l’instant uniquement textuels. DeepSeek a indiqué qu’il travaille sur des capacités multimodales, ce qui signifie que d’autres grands laboratoires, de Xiaomi à OpenAI, ont encore cet avantage. Les deux modèles sont sous licence MIT et disponibles dès aujourd’hui sur Hugging Face. Les anciens endpoints deepseek-chat et deepseek-reasoner seront retirés le 24 juillet 2026.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler