Công cụ chạy mô hình AI cục bộ Ollama đã công bố công khai trên nền tảng X vào ngày 4/24 rằng sẽ đưa mô hình V4-Flash do công ty khởi nghiệp AI Trung Quốc DeepSeek phát hành vào ngày hôm trước vào dịch vụ Ollama Cloud. Máy chủ suy luận đặt tại Mỹ, và cung cấp ba bộ lệnh bật lên một lần để các nhà phát triển có thể trực tiếp tích hợp V4-Flash vào các quy trình phát triển phần mềm AI phổ biến như Claude Code, OpenClaw và Hermes.
deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…
— ollama (@ollama) April 24, 2026
DeepSeek V4 Preview:Hai phiên bản theo kích thước、bối cảnh 1M
Theo thông báo phát hành của DeepSeek trên tài liệu API chính thức vào ngày 4/24, DeepSeek-V4 Preview được mở nguồn đồng thời thành hai phiên bản theo kích thước:
Mẫu Tổng tham số Tham số hoạt động Định vị DeepSeek-V4-Pro 1.6 nghìn tỷ 49 tỷ nhắm đến flagship đóng cửa DeepSeek-V4-Flash 2,840 tỷ 130 tỷ nhanh chóng, hiệu quả, chi phí thấp
Cả hai đều áp dụng kiến trúc Mixture-of-Experts(MoE),hỗ trợ nguyên sinh bối cảnh dài 1 triệu tokens. Trong thông báo, DeepSeek tuyên bố: « Bối cảnh 1M hiện là giá trị mặc định cho tất cả các dịch vụ chính thức của DeepSeek. »
Đổi mới kiến trúc:DSA chú ý thưa+Nén theo từng Token
Các cải tiến kiến trúc cốt lõi của dòng V4 bao gồm:
Nén theo từng token kết hợp DSA(DeepSeek Sparse Attention)—— nhắm vào việc cắt giảm mạnh chi phí cho tính toán suy luận và bộ nhớ đệm KV trong bối cảnh cực dài
So với V3.2, trong bối cảnh 1 triệu tokens, V4-Pro chỉ cần 27% FLOPs cho mỗi token suy luận, và KV cache chỉ cần 10%
Hỗ trợ chuyển đổi hai chế độ Thinking và Non-Thinking, tương ứng với nhu cầu suy luận sâu cho các nhiệm vụ khác nhau
Ở tầng API đồng thời tương thích với đặc tả OpenAI ChatCompletions và Anthropic APIs, giảm chi phí chuyển đổi cho các client Claude/GPT hiện có.
Ba lệnh khởi động một chạm của Ollama Cloud
Trang mô hình chính thức của Ollama cung cấp dịch vụ suy luận trên đám mây thông qua mã định danh mô hình deepseek-v4-flash:cloud, nhà phát triển có thể dùng ba bộ lệnh sau để gắn V4-Flash trực tiếp vào quy trình phát triển ứng dụng AI hiện có:
Quy trình Lệnh Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes
Điểm đáng chú ý là tín hiệu « máy chủ ở Mỹ ». Đối với doanh nghiệp và các nhà phát triển ở châu Âu, lo ngại lớn nhất khi dùng mô hình nguồn mở của Trung Quốc là dữ liệu có thể bị truyền về Trung Quốc; việc Ollama chọn đặt lớp suy luận của V4-Flash tại Mỹ có nghĩa là prompt và nội dung mã nguồn sẽ không rời khỏi thẩm quyền pháp lý của Mỹ, giảm ma sát ở các khía cạnh tuân thủ và chủ quyền dữ liệu.
Vì sao việc này quan trọng đối với ngành AI
Khi nối ba hệ sinh thái trước đây vốn độc lập — DeepSeek V4-Flash, Ollama Cloud và Claude Code — sẽ tạo ra ba ý nghĩa lớp:
Lộ trình chi phí:Số lượng 13 tỷ tham số hoạt động của V4-Flash thấp hơn nhiều so với GPT-5.5(đầu vào 5 USD, đầu ra 30 USD / một triệu tokens)và Claude Opus 4.7 等 flagship;đối với các tác vụ tác nhân cỡ trung và nhỏ, tóm tắt theo lô, tự động hóa kiểm thử… chi phí theo đơn vị dự kiến có thể giảm đáng kể
Tầng trung gian rủi ro địa lý:Ollama là lớp suy luận trung gian đã đăng ký tại Mỹ, giúp người dùng doanh nghiệp của mô hình gốc Trung Quốc tránh được sự lo ngại « dữ liệu trực tiếp gửi đến máy chủ DeepSeek ở Bắc Kinh »;đây là giải pháp thực tiễn cho việc mô hình nguồn mở lan tỏa ra quốc tế
Chuyển đổi tức thời cho nhà phát triển:Người dùng của Claude Code và OpenClaw có thể chuyển đổi mô hình bằng một dòng lệnh trên command line, không cần sửa cấu trúc prompt hay cài đặt IDE;đối với các tình huống như « hồi quy kiểm thử đa mô hình » và « tác vụ theo lô nhạy cảm chi phí », đây là nguồn lực năng suất thật sự được giải phóng trong sản xuất
Liên kết với tin tức DeepSeek trước đó
Việc phát hành V4 lần này đi kèm với tích hợp nhanh với Ollama Cloud, diễn ra trong bối cảnh DeepSeek đang đàm phán vòng tài trợ bên ngoài đầu tiên, với định giá 200 tỷ USD. V4 là một sản phẩm then chốt trong quá trình vốn hóa của công ty DeepSeek;còn chiến lược nguồn mở cộng với việc hợp tác nhanh với đối tác máy chủ quốc tế, là cuộc chiến tốc độ trước khi xây dựng sự độc quyền hệ sinh thái nhà phát triển. Đối với OpenAI và Anthropic, một mô hình thay thế nguồn mở có thể chuyển đổi chỉ trong một dòng ngay trong Claude Code, là một biến số mới trong cuộc tranh giành quyền chủ đạo cho các agent workflow.
Bài viết DeepSeek V4-Flash lên Ollama Cloud, máy chủ Mỹ:Claude Code、OpenClaw kết nối một chạm xuất hiện sớm nhất trên 鏈新聞 ABMedia.
Bài viết liên quan
Cơ quan quản lý Thụy Sĩ FINMA cảnh báo rằng công cụ AI Mythos của Anthropic có nguy cơ gây rủi ro tài chính
DeepSeek V4 ra mắt với cửa sổ ngữ cảnh 1M; chip Huawei Ascend và Cambricon đạt tương thích hoàn toàn
Fere AI Hoàn Tất Vòng Gọi Vốn 1,3 Triệu USD Được Dẫn Dắt Bởi Ethereal Ventures
Anthropic Hoàn Nguyên Thay Đổi Claude Code Sau Khi Chất Lượng Suy Giảm; Tất Cả Các Sửa Chữa Đã Xong
Đồng sáng lập NeoSoul Kaelan: Ngành AI nên cho phép sự tồn tại của đồ chơi, đổi mới thường bắt đầu từ các sản phẩm thử nghiệm
Meta sẽ triển khai hàng chục triệu chip AWS Graviton5 trong thỏa thuận đa năm trị giá hàng tỷ đô la