DeepSeek đã chính thức ra mắt chuỗi phiên bản xem trước V4 vào ngày 24 tháng 4, phát hành mã nguồn mở theo giấy phép MIT, và trọng số mô hình đã được đồng bộ lên Hugging Face cùng ModelScope. Theo báo cáo kỹ thuật của DeepSeek V4, V4-Pro-Max (chế độ mức độ suy luận tối đa) đạt 3206 điểm trên chuẩn Codeforces, vượt GPT-5.4.

Thông số kiến trúc của hai mô hình MoE

Theo báo cáo kỹ thuật của DeepSeek V4, chuỗi V4 bao gồm hai mô hình lai (MoE):

V4-Pro: Tổng tham số 1.6T, kích hoạt 49B mỗi token, hỗ trợ ngữ cảnh 1M token

V4-Flash: Tổng tham số 284B, kích hoạt 13B mỗi token, cũng hỗ trợ ngữ cảnh 1M token

Theo báo cáo kỹ thuật, ở ngữ cảnh 1M, FLOPs suy luận cho mỗi token của V4-Pro chỉ bằng 27% của V3.2; bộ nhớ đệm KV giảm xuống còn 10% của V3.2. Điều này chủ yếu nhờ nâng cấp kiến trúc của cơ chế chú ý hỗn hợp (CSА chú ý thưa nén + HCA chú ý nén nặng). Quy mô dữ liệu tiền huấn luyện vượt quá 32T token; trình tối ưu hóa huấn luyện được cập nhật thành Muon.

Phương pháp hậu huấn luyện: chưng cất chiến lược trực tuyến thay thế học tăng cường hỗn hợp

Theo báo cáo kỹ thuật của DeepSeek V4, cập nhật cốt lõi của hậu huấn luyện V4 là thay thế hoàn toàn giai đoạn học tăng cường hỗn hợp (mixed RL) của V3.2 bằng chưng cất chiến lược trực tuyến (On-Policy Distillation, OPD). Quy trình mới được chia thành hai bước: trước hết, huấn luyện riêng các chuyên gia theo từng lĩnh vực (SFT + học tăng cường GRPO) cho các lĩnh vực như toán học, mã lệnh, Agent và tuân theo lệnh; sau đó, dùng nhiều giáo viên OPD để chưng cất năng lực của hàng chục chuyên gia vào một mô hình thống nhất, căn chỉnh bằng logit để tránh các xung đột năng lực thường gặp trong các phương pháp truyền thống.

Báo cáo đồng thời đưa vào mô hình phần thưởng sinh (Generative Reward Model, GRM), nhằm vào các tác vụ khó xác minh bằng quy tắc. Dùng dữ liệu nhãn thủ công đa dạng với số lượng ít để huấn luyện, để mô hình đồng thời đảm nhiệm chức năng sinh và đánh giá.

Kết quả kiểm tra chuẩn: dẫn đầu ở mã hóa, còn khoảng cách ở suy luận tri thức

Theo báo cáo kỹ thuật của DeepSeek V4, kết quả so sánh giữa V4-Pro-Max và Opus 4.6 Max, GPT-5.4 xHigh cùng Gemini 3.1 Pro High (không bao gồm GPT-5.5 và Opus 4.7 mới phát hành gần đây):

Codeforces: 3206 (GPT-5.4: 3168 / Gemini 3.1 Pro: 3052) → Cao nhất toàn trường

LiveCodeBench: 93.5 → Cao nhất toàn trường

SWE Verified: 80.6, thua Opus 4.6 80.8 chênh 0.2 điểm phần trăm

GPQA Diamond: 90.1, thua Gemini 3.1 Pro 94.3

SimpleQA-Verified: 57.9, thua Gemini 3.1 Pro 75.6

HLE: 37.7, thua Gemini 3.1 Pro 44.4

Báo cáo kỹ thuật cũng chỉ ra rằng các so sánh trên không bao gồm GPT-5.5 và Opus 4.7 mới phát hành gần đây; khoảng cách giữa V4 và các mô hình đóng nguồn thế hệ mới nhất cần được thẩm định bằng đánh giá của bên thứ ba.

Câu hỏi thường gặp

Điều khoản giấy phép mã nguồn mở của phiên bản xem trước DeepSeek V4 là gì, có thể lấy ở đâu?

Theo thông báo chính thức của DeepSeek ngày 24 tháng 4, chuỗi V4 phát hành mã nguồn mở theo giấy phép MIT, trọng số mô hình đã được đưa lên Hugging Face và ModelScope, áp dụng cho cả mục đích thương mại lẫn học thuật.

Sự khác nhau về quy mô tham số giữa DeepSeek V4-Pro và V4-Flash là gì?

Theo báo cáo kỹ thuật của DeepSeek V4, tổng tham số của V4-Pro là 1.6T, kích hoạt 49B mỗi token; tổng tham số của V4-Flash là 284B, kích hoạt 13B mỗi token. Cả hai đều hỗ trợ ngữ cảnh 1M token.

Kết quả so sánh chuẩn của DeepSeek V4-Pro-Max với GPT-5.4 và Gemini 3.1 Pro là gì?

Theo báo cáo kỹ thuật của DeepSeek V4, V4-Pro-Max vượt GPT-5.4 và Gemini 3.1 Pro ở hai chuẩn Codeforces (3206 điểm) và LiveCodeBench (93.5), nhưng vẫn thua Gemini 3.1 Pro ở các chuẩn thiên về tri thức (GPQA Diamond, SimpleQA-Verified, HLE); bộ so sánh không bao gồm GPT-5.5 và Opus 4.7.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Cohere Mua Lại Công Ty AI của Đức Aleph Alpha, Nhận Được $600M Đầu Tư để Mở Rộng Tại Châu Âu

Tin tức ngành AI

Tin tức Gate, ngày 24 tháng 4 — Công ty AI của Canada Cohere đã công bố kế hoạch mua lại công ty AI của Đức Aleph Alpha để củng cố sự hiện diện của mình tại châu Âu. Schwarz Group, một nhà đầu tư hậu thuẫn của Aleph Alpha, dự kiến sẽ đầu tư $600 triệu USD vào vòng gọi vốn Series E của Cohere. Vòng gọi vốn dự kiến sẽ được hoàn tất vào năm 202

GateNews29phút trước

Xpeng, Xiaomi dẫn đầu làn sóng AI trên xe tại Triển lãm Ô tô Bắc Kinh

Tin tức ngành AI

Tin tức cổng, 24 tháng 4 — Các nhà sản xuất ô tô Trung Quốc đã trưng bày các hệ thống AI nâng cao trên xe tại Triển lãm Ô tô Bắc Kinh vào ngày 24 tháng 4, khi quốc gia này đẩy nhanh chiến lược AI Plus và tìm kiếm mức độ độc lập cao hơn khỏi các chất bán dẫn nước ngoài. Xpeng đã trình diễn tính năng đỗ xe điều khiển bằng giọng nói cho phép người lái xe “

GateNews1giờ trước

Cựu kỹ sư Seed của ByteDance: Lượt lặp AI của ByteDance mất sáu tháng so với ba tháng của Google

Tin tức ngành AI

Tin tức Cổng, ngày 24 tháng 4 — Zhang Chi, cựu kỹ sư tại đội Seed của ByteDance và hiện là trợ giảng tại Đại học Bắc Kinh, đã tiết lộ trên podcast "Into Asia" rằng ByteDance cần khoảng sáu tháng để hoàn thành một chu kỳ đầy đủ huấn luyện mô hình ngôn ngữ lớn (pretraining

GateNews1giờ trước

Kỹ sư OpenAI Clive Chan Thách thức Khuyến nghị Phần cứng của V4, Trích dẫn Lỗi và Tính Mơ hồ so với V3

Tin tức ngành AI

Tin tức cổng Gate, ngày 24 tháng 4 — Kỹ sư OpenAI Clive Chan đã đưa ra những phản đối chi tiết đối với chương khuyến nghị phần cứng trong báo cáo kỹ thuật V4, gọi chương này là "đáng ngạc nhiên là tầm thường và dễ gây lỗi" so với phiên bản V3 được ca ngợi. Hướng dẫn phần cứng của V3, bao gồm các buổi Q&A

GateNews1giờ trước

Naver Ra Mắt Bản Beta AI Tab Khi Google Gemini Bước Vào Thị Trường Tìm Kiếm Tại Hàn Quốc

Tin tức ngành AI

Tin tức Cổng, ngày 24 tháng 4 — Naver đã công bố việc bắt đầu thử nghiệm beta kín cho AI Tab, tính năng tìm kiếm hội thoại mới của hãng, sau khi Google ra mắt Gemini trên Chrome tại Hàn Quốc. AI Tab sẽ xuất hiện cùng với các tab tìm kiếm hiện có của Naver, cung cấp cho người dùng một không gian riêng cho các truy vấn mang tính hội thoại

GateNews2giờ trước

Ấn Độ Tuyển dụng Kỹ sư AI Bùng nổ 59,5%, Mở rộng ra Ngoài Các Trung tâm Công nghệ

Tin tức ngành AI

Báo cáo Thị trường Lao động AI của LinkedIn năm 2026, được phát hành vào ngày 24 tháng 4, cho thấy việc tuyển dụng kỹ sư AI tại Ấn Độ đã tăng 59,5% so với cùng kỳ năm trước, đánh dấu tốc độ nhanh nhất trong số các thị trường được nền tảng này nghiên cứu. Sự tăng trưởng được thúc đẩy bởi nhu cầu lan rộng vượt ra ngoài các trung tâm công nghệ đã được thiết lập. Các thành phố bao gồm

CryptoFrontier2giờ trước

Bình luận

0/400

Không có bình luận