DeepSeek V4-Flash arrive sur Ollama Cloud, hôtes américains : Claude Code, OpenClaw connexion en un clic

Outil d’exécution de modèles IA locaux Ollama, annoncé publiquement sur la plateforme X le 24/04, indique intégrer le modèle V4-Flash publié la veille par la startup chinoise d’IA DeepSeek dans le service Ollama Cloud. Le serveur d’inférence est situé aux États-Unis, et trois séries de commandes « en un clic » sont fournies pour que les développeurs puissent brancher directement V4-Flash sur des flux de travail de développement d’IA courants tels que Claude Code, OpenClaw et Hermes.

deepseek-v4-flash est maintenant disponible sur le cloud d’Ollama ! Hébergé aux États-Unis. Essayez-le avec Claude Code : ollama launch claude –model deepseek-v4-flash:cloud Essayez-le avec OpenClaw : ollama launch openclaw –model deepseek-v4-flash:cloud Essayez-le avec Hermes : ollama launch hermes…

— ollama (@ollama) 24 avril 2026

Aperçu DeepSeek V4 : deux tailles, 1M de contexte

Selon l’annonce publiée par la documentation officielle de l’API de DeepSeek le 24/04, DeepSeek-V4 Preview est publié en open source en deux tailles, en parallèle :

Modèle Paramètres totaux Paramètres actifs Ciblage DeepSeek-V4-Pro 1,6 milliard 49 milliards Objectif face à un fleuron fermé DeepSeek-V4-Flash 2 840 milliards 130 milliards Rapide, efficace, à faible coût

Les deux adoptent une architecture Mixture-of-Experts (MoE), avec un support natif de 1 million de tokens de long contexte. Dans l’annonce, DeepSeek déclare : « Le contexte de 1M est maintenant la valeur par défaut de tous les services officiels DeepSeek. »

Innovation d’architecture : DSA attention clairsemée + compression « token-wise »

Les améliorations architecturales au cœur de la série V4 incluent :

Compression « token-wise » associée à DSA (DeepSeek Sparse Attention) — réduction substantielle des coûts pour l’inférence et la mémoire de cache KV dans des contextes extrêmement longs

Par rapport à V3.2, dans un scénario de contexte de 1 million de tokens, V4-Pro nécessite seulement 27% des FLOPs pour l’inférence par token, et seulement 10% pour le cache KV

Prise en charge de la commutation en double mode « Thinking » et « Non-Thinking », correspondant à des besoins de raisonnement en profondeur pour différents types de tâches

Au niveau de l’API, compatibilité simultanée avec OpenAI ChatCompletions et les spécifications des APIs Anthropic, réduisant les coûts de migration pour les clients Claude/GPT existants.

Trois commandes « en un clic » pour Ollama Cloud

La page officielle des modèles d’Ollama fournit un service d’inférence cloud avec l’identifiant de modèle deepseek-v4-flash:cloud ; les développeurs peuvent utiliser les trois séries de commandes suivantes pour intégrer directement V4-Flash dans leurs flux de travail de développement d’IA existants :

Flux de travail Commandes Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

À noter : le signal « serveur aux États-Unis ». Pour les entreprises et les développeurs occidentaux, la plus grande inquiétude lorsqu’on utilise des modèles open source chinois est le renvoi de données vers la Chine ; en plaçant la couche d’inférence de V4-Flash aux États-Unis, cela signifie que le prompt et le contenu du code ne quittent pas la juridiction américaine, réduisant les frictions en matière de conformité et de souveraineté des données.

Pourquoi cette affaire est importante pour l’industrie de l’IA

En reliant ensemble trois éléments autrefois indépendants — DeepSeek V4-Flash, Ollama Cloud et Claude Code — cette mise en relation produit trois significations :

Voie de coûts : les 13 milliards de paramètres actifs de V4-Flash sont bien inférieurs à ceux de GPT-5.5 (5 dollars en entrée, 30 dollars en sortie par 1 million de tokens) et de Claude Opus 4.7 ; pour des tâches d’agents de taille moyenne et petite, des résumés en lots, l’automatisation des tests, etc., le coût unitaire pourrait chuter de façon significative

Couche d’intermédiation du risque géographique : en tant que couche d’inférence intermédiée enregistrée aux États-Unis, Ollama permet aux utilisateurs d’entreprises de modèles natifs chinois d’éviter l’inquiétude « les données sont envoyées directement au serveur de DeepSeek à Pékin », ce qui constitue une solution pratique à la diffusion internationale des modèles open source

Bascule instantanée pour les développeurs : les utilisateurs de Claude Code et OpenClaw peuvent changer de modèle en une seule ligne via la ligne de commande, sans modifier la structure du prompt ni les réglages de l’IDE ; pour des scénarios comme les « tests de régression multi-modèles » et les « tâches par lots sensibles aux coûts », cela libère une vraie productivité en production

Lien avec les actualités précédentes de DeepSeek

Cette sortie de V4 et l’intégration rapide avec Ollama Cloud surviennent dans un contexte où DeepSeek discute d’un premier tour de financement externe et d’une valorisation de 20 milliards de dollars. V4 est une preuve produit clé dans le processus de capitalisation de l’entreprise DeepSeek ; et la stratégie open source combinée à une diffusion rapide via des partenaires hôtes internationaux, c’est une course à la vitesse pour établir avant les autres son monopole de l’écosystème développeur. Pour OpenAI et Anthropic, un modèle open source remplaçant qui peut être basculé en une ligne à l’intérieur de Claude Code est une nouvelle variable dans la bataille pour la maîtrise des flux de travail des agents.

Cet article « DeepSeek V4-Flash arrive sur Ollama Cloud, serveur aux États-Unis : raccordement en un clic de Claude Code et OpenClaw » est apparu pour la première fois sur Chaîne d’actualités ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

U.S. Oil Market Under Investigation for Suspicious Insider Trading; Trump Policy Dominates Market Movements

Gate News message, April 25 — Macro trends and geopolitical tensions dominated market movements this week. U.S.-Iran tensions continue to pressure oil prices and global risk assets, with the Strait of Hormuz blockade unresolved and negotiations shifting toward "complete ceasefire." Risk-off

GateNewsIl y a 3m

Google investit $10B dans Anthropic à une valorisation pré-money de $350B , avec jusqu’à $30B supplémentaire lié à des jalons de performance

Message de Gate News, 25 avril — Google et Anthropic ont conclu un nouvel accord d’investissement, Google s’engageant à injecter $10 milliard(s) en liquidités immédiates pour une valorisation pré-money de $350 milliard(s), selon le suivi « Beating ». Un montant supplémentaire de $30 milliard(s) sera déployé une fois qu’Anthropic atteindra des objectifs de performance spécifiques

GateNewsIl y a 11m

La plateforme d’agent de trading IA Fere AI lève 1,3 M$, menée par Ethereal Ventures

Message de Gate News, 25 avril — La plateforme d’agent de trading d’actifs numériques propulsée par l’IA, Fere AI, a annoncé l’achèvement d’une levée de fonds de 1,3 million de dollars, menée par Ethereal Ventures, avec la participation de Galaxy Vision Hill et Kosmos Ventures. La plateforme prend en charge des réseaux inter-chaînes, notamment Ethereum,

GateNewsIl y a 1h

La NDRC chinoise ordonne à des entreprises d’IA, dont Moonshot et StepFun, de refuser des capitaux américains sans approbation

Message de Gate News, 25 avril — la Commission nationale du développement et de la réforme (NDRC) de Chine a ordonné à plusieurs entreprises d’IA de refuser des capitaux américains ces dernières semaines, sauf si elles obtiennent une autorisation explicite du gouvernement, selon Bloomberg citant des sources informées. Moonshot AI et StepFun, toutes deux en préparation pour des inscriptions en b

GateNewsIl y a 1h

Le juge américain rejette les allégations de fraude de Musk contre OpenAI et Altman

Message de Gate News, 25 avril — Un juge américain a rejeté les allégations de fraude déposées par Elon Musk contre OpenAI et le cofondateur d'OpenAI Sam Altman dans le cadre de son procès en cours contre l'entreprise. Le tribunal a statué que les accusations de fraude ne seront pas poursuivies, bien que le juge ait programmé des audiences supplémentaires pour traiter les allégations restantes de Musk dans l'affaire.

GateNewsIl y a 2h

Pourquoi les bonnes nouvelles d'Intel font-elles bondir le cours de l'action Nvidia ?

Le bénéfice par action (EPS) de 0,29 $ de Intel pour ce trimestre et ses revenus de 13,6 milliards de dollars ont tous deux dépassé les attentes ; le dynamisme du renouvellement des centres de données et des équipements informatiques est revenu à la hausse, renforçant la confiance dans la demande en semi-conducteurs et en IA. Cette bonne nouvelle a fait grimper le cours de Nvidia d’environ 4,9 % à midi ; le marché estime que la demande en puissance de calcul de base reste forte, ce qui réduit les inquiétudes liées à une « bulle » de l’IA, et soutient les perspectives de croissance à long terme de Nvidia. Les deux entreprises concurrentes ont vu apparaître une dynamique sectorielle positive en même temps.

ChainNewsAbmediaIl y a 6h
Commentaire
0/400
Aucun commentaire