Công cụ chạy mô hình AI cục bộ Ollama đã công bố công khai trên nền tảng X vào ngày 4/24 rằng sẽ đưa mô hình V4-Flash do công ty khởi nghiệp AI Trung Quốc DeepSeek phát hành vào ngày hôm trước vào dịch vụ Ollama Cloud. Máy chủ suy luận đặt tại Mỹ, và cung cấp ba bộ lệnh bật lên một lần để các nhà phát triển có thể trực tiếp tích hợp V4-Flash vào các quy trình phát triển phần mềm AI phổ biến như Claude Code, OpenClaw và Hermes.

deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…

— ollama (@ollama) April 24, 2026

DeepSeek V4 Preview：Hai phiên bản theo kích thước、bối cảnh 1M

Theo thông báo phát hành của DeepSeek trên tài liệu API chính thức vào ngày 4/24, DeepSeek-V4 Preview được mở nguồn đồng thời thành hai phiên bản theo kích thước:

Mẫu Tổng tham số Tham số hoạt động Định vị DeepSeek-V4-Pro 1.6 nghìn tỷ 49 tỷ nhắm đến flagship đóng cửa DeepSeek-V4-Flash 2,840 tỷ 130 tỷ nhanh chóng, hiệu quả, chi phí thấp

Cả hai đều áp dụng kiến trúc Mixture-of-Experts（MoE），hỗ trợ nguyên sinh bối cảnh dài 1 triệu tokens. Trong thông báo, DeepSeek tuyên bố: « Bối cảnh 1M hiện là giá trị mặc định cho tất cả các dịch vụ chính thức của DeepSeek. »

Đổi mới kiến trúc：DSA chú ý thưa＋Nén theo từng Token

Các cải tiến kiến trúc cốt lõi của dòng V4 bao gồm:

Nén theo từng token kết hợp DSA（DeepSeek Sparse Attention）—— nhắm vào việc cắt giảm mạnh chi phí cho tính toán suy luận và bộ nhớ đệm KV trong bối cảnh cực dài

So với V3.2, trong bối cảnh 1 triệu tokens, V4-Pro chỉ cần 27% FLOPs cho mỗi token suy luận, và KV cache chỉ cần 10%

Hỗ trợ chuyển đổi hai chế độ Thinking và Non-Thinking, tương ứng với nhu cầu suy luận sâu cho các nhiệm vụ khác nhau

Ở tầng API đồng thời tương thích với đặc tả OpenAI ChatCompletions và Anthropic APIs, giảm chi phí chuyển đổi cho các client Claude／GPT hiện có.

Ba lệnh khởi động một chạm của Ollama Cloud

Trang mô hình chính thức của Ollama cung cấp dịch vụ suy luận trên đám mây thông qua mã định danh mô hình deepseek-v4-flash:cloud, nhà phát triển có thể dùng ba bộ lệnh sau để gắn V4-Flash trực tiếp vào quy trình phát triển ứng dụng AI hiện có:

Quy trình Lệnh Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

Điểm đáng chú ý là tín hiệu « máy chủ ở Mỹ ». Đối với doanh nghiệp và các nhà phát triển ở châu Âu, lo ngại lớn nhất khi dùng mô hình nguồn mở của Trung Quốc là dữ liệu có thể bị truyền về Trung Quốc; việc Ollama chọn đặt lớp suy luận của V4-Flash tại Mỹ có nghĩa là prompt và nội dung mã nguồn sẽ không rời khỏi thẩm quyền pháp lý của Mỹ, giảm ma sát ở các khía cạnh tuân thủ và chủ quyền dữ liệu.

Vì sao việc này quan trọng đối với ngành AI

Khi nối ba hệ sinh thái trước đây vốn độc lập — DeepSeek V4-Flash, Ollama Cloud và Claude Code — sẽ tạo ra ba ý nghĩa lớp:

Lộ trình chi phí：Số lượng 13 tỷ tham số hoạt động của V4-Flash thấp hơn nhiều so với GPT-5.5（đầu vào 5 USD, đầu ra 30 USD / một triệu tokens）và Claude Opus 4.7 等 flagship；đối với các tác vụ tác nhân cỡ trung và nhỏ, tóm tắt theo lô, tự động hóa kiểm thử… chi phí theo đơn vị dự kiến có thể giảm đáng kể

Tầng trung gian rủi ro địa lý：Ollama là lớp suy luận trung gian đã đăng ký tại Mỹ, giúp người dùng doanh nghiệp của mô hình gốc Trung Quốc tránh được sự lo ngại « dữ liệu trực tiếp gửi đến máy chủ DeepSeek ở Bắc Kinh »；đây là giải pháp thực tiễn cho việc mô hình nguồn mở lan tỏa ra quốc tế

Chuyển đổi tức thời cho nhà phát triển：Người dùng của Claude Code và OpenClaw có thể chuyển đổi mô hình bằng một dòng lệnh trên command line, không cần sửa cấu trúc prompt hay cài đặt IDE；đối với các tình huống như « hồi quy kiểm thử đa mô hình » và « tác vụ theo lô nhạy cảm chi phí », đây là nguồn lực năng suất thật sự được giải phóng trong sản xuất

Liên kết với tin tức DeepSeek trước đó

Việc phát hành V4 lần này đi kèm với tích hợp nhanh với Ollama Cloud, diễn ra trong bối cảnh DeepSeek đang đàm phán vòng tài trợ bên ngoài đầu tiên, với định giá 200 tỷ USD. V4 là một sản phẩm then chốt trong quá trình vốn hóa của công ty DeepSeek；còn chiến lược nguồn mở cộng với việc hợp tác nhanh với đối tác máy chủ quốc tế, là cuộc chiến tốc độ trước khi xây dựng sự độc quyền hệ sinh thái nhà phát triển. Đối với OpenAI và Anthropic, một mô hình thay thế nguồn mở có thể chuyển đổi chỉ trong một dòng ngay trong Claude Code, là một biến số mới trong cuộc tranh giành quyền chủ đạo cho các agent workflow.

Bài viết DeepSeek V4-Flash lên Ollama Cloud, máy chủ Mỹ：Claude Code、OpenClaw kết nối một chạm xuất hiện sớm nhất trên 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Cơ quan quản lý Thụy Sĩ FINMA cảnh báo rằng công cụ AI Mythos của Anthropic có nguy cơ gây rủi ro tài chính

Tin tức ngành AI

Tin tức từ Gate, ngày 24 tháng 4 — Cơ quan Giám sát Thị trường Tài chính (FINMA) của Thụy Sĩ đã cho biết việc cho phép các ngân hàng nhanh chóng và thuận tiện áp dụng công cụ trí tuệ nhân tạo Mythos của Anthropic sẽ gây ra những rủi ro nghiêm trọng cho

GateNews8phút trước

DeepSeek V4 ra mắt với cửa sổ ngữ cảnh 1M; chip Huawei Ascend và Cambricon đạt tương thích hoàn toàn

Tin tức ngành AI

Tin Gate News, ngày 24 tháng 4 — DeepSeek V4-Pro và DeepSeek V4-Flash đã được phát hành chính thức và công bố mã nguồn mở vào ngày 24 tháng 4; độ dài xử lý theo ngữ cảnh được mở rộng đáng kể từ 128K lên 1M, tương đương mức tăng dung lượng gần gấp 10 lần. Huawei Computing cho biết sản phẩm siêu điểm nút (supernode) Ascend của họ

GateNews57phút trước

Fere AI Hoàn Tất Vòng Gọi Vốn 1,3 Triệu USD Được Dẫn Dắt Bởi Ethereal Ventures

Tác nhân AI Tin tức ngành AI

Tin tức từ Gate, ngày 24 tháng 4 — Fere AI, một nền tảng tác nhân giao dịch tài sản kỹ thuật số được hỗ trợ bởi AI, đã công bố hoàn tất vòng gọi vốn trị giá 1,3 triệu USD do Ethereal Ventures dẫn dắt, với Galaxy Vision Hill và Kosmos Ventures tham gia. Nền tảng hỗ trợ các mạng xuyên chuỗi bao gồm Ethereum,

GateNews1giờ trước

Anthropic Hoàn Nguyên Thay Đổi Claude Code Sau Khi Chất Lượng Suy Giảm; Tất Cả Các Sửa Chữa Đã Xong

Tin tức ngành AI

Tin tức Cổng, ngày 24 tháng 4 — Anthropic đã thừa nhận sự sụt giảm gần đây về chất lượng của Claude Code và xác nhận rằng tất cả các vấn đề liên quan đã được khắc phục thông qua các lần hoàn nguyên (rollbacks) và sửa lỗi. Các vấn đề bắt nguồn từ ba điều chỉnh về sản phẩm và lời nhắc (prompt) được thực hiện trong giai đoạn từ đầu đến giữa tháng 4. Vào ngày 4 tháng 3, the

GateNews2giờ trước

Đồng sáng lập NeoSoul Kaelan: Ngành AI nên cho phép sự tồn tại của đồ chơi, đổi mới thường bắt đầu từ các sản phẩm thử nghiệm

Tin tức ngành AI

Tin tức Gate, ngày 24 tháng 4 — Tại một diễn đàn gần đây ở Hồng Kông về tài chính mã hóa thông minh, đồng sáng lập NeoSoul Kaelan đã chia sẻ những hiểu biết về việc đánh giá các dự án AI ở giai đoạn đầu, trong ngành AI phát triển nhanh chóng và liên tục thay đổi. Ngoài việc đánh giá các sản phẩm hiện tại, các nhóm phải chứng minh khả năng bắt kịp với các năng lực của mô hình nền tảng, ông cho biết. Kaelan nhấn mạnh rằng khởi nghiệp AI cần cả sự vững nền và tầm nhìn: vững nền nghĩa là có năng lực về triển khai kỹ thuật, thiết kế sản phẩm và hiểu biết thị trường để tạo ra các sản phẩm hữu hình; tầm nhìn nghĩa là xây dựng phù hợp với các xu hướng phát triển của các mô hình ngôn ngữ lớn. Kaelan lập luận rằng dù một số sản phẩm AI giai đoạn đầu có thể trông như đồ chơi, những hình thức như vậy nên được cho phép trong các ngành công nghiệp đang hình thành. Nhiều mô hình hoàn toàn mới thực sự lần đầu tiên xuất hiện dưới dạng sản phẩm thử nghiệm trước khi đạt đến độ trưởng thành.

GateNews3giờ trước

Meta sẽ triển khai hàng chục triệu chip AWS Graviton5 trong thỏa thuận đa năm trị giá hàng tỷ đô la

Cổ phiếu Tin tức ngành AI

Tin tức Gate, ngày 24 tháng 4 — Meta đã ký một thỏa thuận nhiều năm với Amazon Web Services để triển khai hàng chục triệu bộ xử lý Graviton5 cho cơ sở hạ tầng AI của mình, khiến Meta trở thành một trong những khách hàng Graviton lớn nhất của AWS trên toàn cầu. Thỏa thuận này kéo dài từ ba đến năm năm, được định giá lên tới hàng tỷ đô la, theo Phó Chủ tịch AWS Nafea Bshara.

GateNews3giờ trước

Bình luận

0/400

Không có bình luận