Outil d’exécution de modèles IA locaux Ollama, annoncé publiquement sur la plateforme X le 24/04, indique intégrer le modèle V4-Flash publié la veille par la startup chinoise d’IA DeepSeek dans le service Ollama Cloud. Le serveur d’inférence est situé aux États-Unis, et trois séries de commandes « en un clic » sont fournies pour que les développeurs puissent brancher directement V4-Flash sur des flux de travail de développement d’IA courants tels que Claude Code, OpenClaw et Hermes.
deepseek-v4-flash est maintenant disponible sur le cloud d’Ollama ! Hébergé aux États-Unis. Essayez-le avec Claude Code : ollama launch claude –model deepseek-v4-flash:cloud Essayez-le avec OpenClaw : ollama launch openclaw –model deepseek-v4-flash:cloud Essayez-le avec Hermes : ollama launch hermes…
— ollama (@ollama) 24 avril 2026
Aperçu DeepSeek V4 : deux tailles, 1M de contexte
Selon l’annonce publiée par la documentation officielle de l’API de DeepSeek le 24/04, DeepSeek-V4 Preview est publié en open source en deux tailles, en parallèle :
Modèle Paramètres totaux Paramètres actifs Ciblage DeepSeek-V4-Pro 1,6 milliard 49 milliards Objectif face à un fleuron fermé DeepSeek-V4-Flash 2 840 milliards 130 milliards Rapide, efficace, à faible coût
Les deux adoptent une architecture Mixture-of-Experts (MoE), avec un support natif de 1 million de tokens de long contexte. Dans l’annonce, DeepSeek déclare : « Le contexte de 1M est maintenant la valeur par défaut de tous les services officiels DeepSeek. »
Innovation d’architecture : DSA attention clairsemée + compression « token-wise »
Les améliorations architecturales au cœur de la série V4 incluent :
Compression « token-wise » associée à DSA (DeepSeek Sparse Attention) — réduction substantielle des coûts pour l’inférence et la mémoire de cache KV dans des contextes extrêmement longs
Par rapport à V3.2, dans un scénario de contexte de 1 million de tokens, V4-Pro nécessite seulement 27% des FLOPs pour l’inférence par token, et seulement 10% pour le cache KV
Prise en charge de la commutation en double mode « Thinking » et « Non-Thinking », correspondant à des besoins de raisonnement en profondeur pour différents types de tâches
Au niveau de l’API, compatibilité simultanée avec OpenAI ChatCompletions et les spécifications des APIs Anthropic, réduisant les coûts de migration pour les clients Claude/GPT existants.
Trois commandes « en un clic » pour Ollama Cloud
La page officielle des modèles d’Ollama fournit un service d’inférence cloud avec l’identifiant de modèle deepseek-v4-flash:cloud ; les développeurs peuvent utiliser les trois séries de commandes suivantes pour intégrer directement V4-Flash dans leurs flux de travail de développement d’IA existants :
Flux de travail Commandes Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes
À noter : le signal « serveur aux États-Unis ». Pour les entreprises et les développeurs occidentaux, la plus grande inquiétude lorsqu’on utilise des modèles open source chinois est le renvoi de données vers la Chine ; en plaçant la couche d’inférence de V4-Flash aux États-Unis, cela signifie que le prompt et le contenu du code ne quittent pas la juridiction américaine, réduisant les frictions en matière de conformité et de souveraineté des données.
Pourquoi cette affaire est importante pour l’industrie de l’IA
En reliant ensemble trois éléments autrefois indépendants — DeepSeek V4-Flash, Ollama Cloud et Claude Code — cette mise en relation produit trois significations :
Voie de coûts : les 13 milliards de paramètres actifs de V4-Flash sont bien inférieurs à ceux de GPT-5.5 (5 dollars en entrée, 30 dollars en sortie par 1 million de tokens) et de Claude Opus 4.7 ; pour des tâches d’agents de taille moyenne et petite, des résumés en lots, l’automatisation des tests, etc., le coût unitaire pourrait chuter de façon significative
Couche d’intermédiation du risque géographique : en tant que couche d’inférence intermédiée enregistrée aux États-Unis, Ollama permet aux utilisateurs d’entreprises de modèles natifs chinois d’éviter l’inquiétude « les données sont envoyées directement au serveur de DeepSeek à Pékin », ce qui constitue une solution pratique à la diffusion internationale des modèles open source
Bascule instantanée pour les développeurs : les utilisateurs de Claude Code et OpenClaw peuvent changer de modèle en une seule ligne via la ligne de commande, sans modifier la structure du prompt ni les réglages de l’IDE ; pour des scénarios comme les « tests de régression multi-modèles » et les « tâches par lots sensibles aux coûts », cela libère une vraie productivité en production
Lien avec les actualités précédentes de DeepSeek
Cette sortie de V4 et l’intégration rapide avec Ollama Cloud surviennent dans un contexte où DeepSeek discute d’un premier tour de financement externe et d’une valorisation de 20 milliards de dollars. V4 est une preuve produit clé dans le processus de capitalisation de l’entreprise DeepSeek ; et la stratégie open source combinée à une diffusion rapide via des partenaires hôtes internationaux, c’est une course à la vitesse pour établir avant les autres son monopole de l’écosystème développeur. Pour OpenAI et Anthropic, un modèle open source remplaçant qui peut être basculé en une ligne à l’intérieur de Claude Code est une nouvelle variable dans la bataille pour la maîtrise des flux de travail des agents.
Cet article « DeepSeek V4-Flash arrive sur Ollama Cloud, serveur aux États-Unis : raccordement en un clic de Claude Code et OpenClaw » est apparu pour la première fois sur Chaîne d’actualités ABMedia.
Articles similaires
U.S. Oil Market Under Investigation for Suspicious Insider Trading; Trump Policy Dominates Market Movements
Google investit $10B dans Anthropic à une valorisation pré-money de $350B , avec jusqu’à $30B supplémentaire lié à des jalons de performance
La plateforme d’agent de trading IA Fere AI lève 1,3 M$, menée par Ethereal Ventures
La NDRC chinoise ordonne à des entreprises d’IA, dont Moonshot et StepFun, de refuser des capitaux américains sans approbation
Le juge américain rejette les allégations de fraude de Musk contre OpenAI et Altman
Pourquoi les bonnes nouvelles d'Intel font-elles bondir le cours de l'action Nvidia ?