DeepSeek V4 Đã Có Mặt—Phiên Bản Chuyên Nghiệp của Nó Có Giá Thấp Hơn 98% So Với GPT 5.5 Pro

###Tóm tắt ngắn gọn

  • DeepSeek đã phát hành mẫu mới V4-Pro với 1,6 nghìn tỷ tham số.
  • Giá là 1,74 USD / 3,48 USD cho mỗi triệu token đầu vào/đầu ra, xấp xỉ 1/20 giá của Claude Opus 4.7 và giảm 98% so với GPT 5.5 Pro.
  • DeepSeek đã đào tạo V4 một phần trên chip Huawei Ascend, tránh các hạn chế xuất khẩu của Mỹ, và nói rằng khi 950 siêu nút mới đi vào hoạt động vào cuối năm 2026, giá của mẫu Pro đã thấp sẽ còn giảm nữa.

DeepSeek đã trở lại, và xuất hiện vài giờ sau khi OpenAI tung ra GPT-5.5. Trùng hợp? Có thể. Nhưng nếu bạn là một phòng thí nghiệm AI Trung Quốc mà chính phủ Mỹ đã cố gắng làm chậm lại bằng lệnh cấm xuất khẩu chip trong ba năm qua, cảm giác về thời điểm của bạn sẽ rất nhạy bén. Phòng thí nghiệm đặt tại Hàng Châu đã phát hành các phiên bản xem trước của DeepSeek-V4-Pro và DeepSeek-V4-Flash hôm nay, đều mở trọng lượng, đều có cửa sổ ngữ cảnh một triệu token. Điều đó có nghĩa là bạn có thể làm việc với một ngữ cảnh kích thước gần bằng bộ ba Chúa Nhẫn trước khi mô hình sụp đổ. Cả hai cũng có giá thấp hơn nhiều so với bất kỳ thứ gì tương đương ở phương Tây, và cả hai đều miễn phí cho những ai có khả năng chạy cục bộ. Sự gián đoạn lớn cuối cùng của DeepSeek—R1 vào tháng 1 năm 2025—đã xóa đi 1 tỷ đô la khỏi vốn hóa thị trường của Nvidia trong một ngày khi các nhà đầu tư đặt câu hỏi liệu các công ty Mỹ có thực sự cần đầu tư lớn như vậy để đạt được kết quả mà một phòng thí nghiệm nhỏ của Trung Quốc đã làm được với một phần chi phí đó hay không. V4 là một bước đi khác: yên tĩnh hơn, kỹ thuật hơn, và tập trung nhiều hơn vào hiệu quả cho bất kỳ ai thực sự xây dựng với AI.

Hai mô hình, công việc rất khác nhau  Trong hai mô hình mới, V4-Pro của DeepSeek là lớn nhất, với 1,6 nghìn tỷ tham số tổng cộng. Để hình dung, tham số là các “cài đặt” nội bộ hoặc “tế bào não” mà mô hình sử dụng để lưu trữ kiến thức và nhận diện mẫu—càng nhiều tham số, mô hình có thể lưu trữ thông tin phức tạp hơn về lý thuyết. Điều này khiến nó trở thành mô hình mã nguồn mở lớn nhất trong thị trường LLM tính đến nay. Kích thước nghe có vẻ điên rồ cho đến khi bạn biết rằng nó chỉ kích hoạt 49 tỷ trong số đó mỗi lần suy luận.
Đây là thủ thuật Trộn Chuyên gia mà DeepSeek đã tinh chỉnh từ V3: Mô hình đầy đủ nằm đó, nhưng chỉ phần phù hợp của nó mới thức dậy cho bất kỳ yêu cầu nào. Nhiều kiến thức, cùng hóa đơn tính toán. “DeepSeek-V4-Pro-Max, chế độ nỗ lực suy luận tối đa của DeepSeek-V4-Pro, nâng cao đáng kể khả năng kiến thức của các mô hình mã nguồn mở, khẳng định vị trí là mô hình mã nguồn mở tốt nhất hiện nay,” DeepSeek viết trong thẻ chính thức của mô hình trên Huggingface. “Nó đạt hiệu suất hàng đầu trong các bài kiểm tra mã hóa và rút ngắn đáng kể khoảng cách với các mô hình đóng nguồn hàng đầu về lý luận và nhiệm vụ tác nhân.” V4-Flash là phiên bản thực tế hơn: 284 tỷ tham số tổng cộng, 13 tỷ hoạt động. Nó được thiết kế để nhanh hơn, rẻ hơn, và theo các tiêu chuẩn của DeepSeek, “đạt hiệu suất lý luận tương đương với phiên bản Pro khi có ngân sách suy nghĩ lớn hơn.”

Cả hai hỗ trợ một triệu token ngữ cảnh. Đó là khoảng 750.000 từ—gần như toàn bộ bộ ba “Chúa Nhẫn” cộng chút nữa. Và đó là tính năng tiêu chuẩn, không phải cấp cao nhất. Điều đặc biệt của DeepSeek: Làm cho chú ý không tồi tệ ở quy mô lớn Dưới đây là phần kỹ thuật dành cho những người thích công nghệ hoặc quan tâm đến phép thuật đằng sau mô hình. DeepSeek không giấu bí mật của mình, và mọi thứ đều có sẵn miễn phí—bài báo đầy đủ có thể tải về trên Github. Chú ý AI tiêu chuẩn—cơ chế giúp mô hình hiểu các mối quan hệ giữa các từ—đang gặp vấn đề mở rộng khủng khiếp. Mỗi lần bạn nhân đôi độ dài ngữ cảnh, chi phí tính toán xấp xỉ bốn lần. Vì vậy, chạy mô hình trên một triệu token không chỉ đắt gấp đôi 500.000 token. Nó đắt gấp bốn lần. Đây là lý do tại sao ngữ cảnh dài đã từng là một ô checkbox mà các phòng thí nghiệm thêm vào rồi âm thầm hạn chế sau đó. DeepSeek đã phát minh ra hai loại chú ý mới để vượt qua điều này. Loại đầu tiên, Chú ý Không gian Rộng nén, hoạt động theo hai bước. Đầu tiên, nó nén các nhóm token—ví dụ, mỗi 4 token—thành một mục duy nhất. Sau đó, thay vì chú ý đến tất cả các mục đã nén đó, nó dùng một “Chỉ số Sấm Sét” để chọn chỉ những kết quả phù hợp nhất cho bất kỳ truy vấn nào. Mô hình của bạn từ chú ý đến một triệu token chuyển sang chú ý đến một tập nhỏ hơn nhiều các đoạn quan trọng nhất, giống như một thủ thư không đọc tất cả sách mà biết chính xác kệ nào cần kiểm tra. Loại thứ hai, Chú ý Nén Nặng hơn, còn mạnh mẽ hơn. Nó gộp mọi 128 token thành một mục—không chọn lọc thưa thớt, chỉ nén cực đoan. Bạn mất chi tiết tinh vi, nhưng có được một cái nhìn toàn cảnh cực kỳ rẻ. Hai loại chú ý này chạy xen kẽ trong các lớp, vì vậy mô hình vừa có chi tiết vừa có tổng quan.

![]$600 https://img-cdn.gateio.im/social/moments-02b21fa93c-be927f953a-8b7abd-badf29(

Kết quả, từ bài báo kỹ thuật: Ở một triệu token, V4-Pro sử dụng 27% công suất của phiên bản trước )V3.2(. Bộ nhớ cache KV—bộ nhớ mô hình cần để theo dõi ngữ cảnh—giảm xuống còn 10% của V3.2. V4-Flash còn tiến xa hơn nữa: 10% công suất, 7% bộ nhớ. Và điều này giúp DeepSeek cung cấp giá rẻ hơn nhiều cho mỗi token so với các đối thủ, đồng thời cung cấp kết quả tương đương. Để so sánh bằng đô la: GPT-5.5 ra mắt hôm qua với )đầu vào và (đầu ra trên mỗi triệu token, với GPT-5.5 Pro có giá )mỗi triệu token đầu vào và $5 mỗi triệu token đầu ra.

DeepSeek V4-Pro có giá 1,74 USD đầu vào và 3,48 USD đầu ra. V4-Flash là 0,14 USD đầu vào và 0,28 USD đầu ra. Giám đốc điều hành của Cline, Saoud Rizwan, chỉ ra rằng nếu Uber đã dùng DeepSeek thay vì Claude, ngân sách AI năm 2026—được báo cáo đủ dùng trong bốn tháng—sẽ kéo dài tới bảy năm.

deepseek v4 hiện là mô hình sota rẻ nhất, với chi phí 1/20 Opus 4.7.

để hình dung, nếu Uber dùng deepseek thay vì claude, ngân sách AI 2026 của họ sẽ kéo dài 7 năm thay vì chỉ 4 tháng. pic.twitter.com/i9rJZzvRBV

— Saoud Rizwan $30 @sdrzn$30 24 tháng 4, 2026

Các bài kiểm tra chuẩn DeepSeek làm điều bất thường trong báo cáo kỹ thuật của mình: Nó công bố các khoảng cách. Hầu hết các bản phát hành mô hình chọn lọc các bài kiểm tra nơi họ thắng. DeepSeek đã chạy so sánh đầy đủ với GPT-5.4 và Gemini-3.1-Pro, nhận thấy rằng khả năng lý luận của V4-Pro chậm hơn các mô hình đó khoảng ba đến sáu tháng, rồi vẫn in ra kết quả. Nơi V4-Pro-Max thực sự thắng: Codeforces, bài kiểm tra lập trình cạnh tranh, xếp hạng như cờ vua của con người. V4-Pro đạt 3.206 điểm, xếp khoảng thứ 23 trong số các thí sinh thi đấu thực sự. Trên Apex Shortlist, một bộ các bài toán khó về toán học và STEM, nó đạt tỷ lệ đậu và đạt 90,2% so với Opus 4.6 là 85,9% và GPT-5.4 là 78,1%. Trên SWE-Verified, đo khả năng mô hình giải quyết các vấn đề thực tế từ GitHub lấy từ các kho mã nguồn mở, nó đạt 80,6%—bằng Claude Opus 4.6.

![]$180 https://img-cdn.gateio.im/social/moments-51d4cda8e3-32b57da7d8-8b7abd-badf29(

Nơi nó còn kém: bài kiểm tra đa nhiệm MMLU-Pro )Gemini-3.1-Pro đạt 91,0% so với V4-Pro 87,5%(, bài kiểm tra kiến thức chuyên môn GPQA Diamond )Gemini 94,3 so với V4-Pro 90,1(, và kỳ thi cuối cùng của nhân loại, một bài kiểm tra trình độ cao đại học, nơi Gemini-3.1-Pro vẫn thắng V4-Pro với 44,4% so với 37,7%. Về ngữ cảnh dài đặc biệt, V4-Pro dẫn đầu các mô hình mã nguồn mở và vượt qua Gemini-3.1-Pro trong bài kiểm tra CorpusQA )một thử nghiệm mô phỏng phân tích tài liệu thực ở một triệu token(, nhưng thua Claude Opus 4.6 trong MRCR—bài kiểm tra đo khả năng mô hình truy xuất chính xác các mũi kim nằm sâu trong đống cỏ khổng lồ. Xây dựng để chạy tác nhân, không chỉ trả lời câu hỏi Phần tác nhân là nơi bản phát hành này trở nên thú vị đối với các nhà phát triển thực sự triển khai sản phẩm.

V4-Pro có thể chạy trong Claude Code, OpenCode, và các công cụ mã hóa AI khác. Theo khảo sát nội bộ của DeepSeek với 85 nhà phát triển đã sử dụng V4-Pro làm tác nhân mã chính, 52% nói rằng nó đã sẵn sàng trở thành mô hình mặc định của họ, 39% nghiêng về có, và chưa đến 9% nói không. Nhân viên nội bộ cho biết nó vượt qua Claude Sonnet và gần đạt Claude Opus 4.5 trong các nhiệm vụ mã hóa tác nhân.

![])https://img-cdn.gateio.im/social/moments-7950e97367-e6879bef39-8b7abd-badf29(

Artificial Analysis, tổ chức đánh giá độc lập các mô hình AI trên các nhiệm vụ thực tế, xếp V4-Pro đứng đầu tất cả các mô hình mở trọng lượng trong GDPval-AA—bài kiểm tra công việc kiến thức có giá trị kinh tế trong tài chính, pháp lý, và nghiên cứu, được đánh giá qua Elo. V4-Pro-Max đạt 1.554 Elo, vượt qua GLM-5.1 )1.535( và MiniMax M2.7 )1.514(. Để tham khảo, Claude Opus 4.6 đạt 1.619 trong cùng bài kiểm tra—vẫn dẫn đầu, nhưng khoảng cách đang thu hẹp.

DeepSeek V4 Pro là mô hình trọng lượng mở số 1 trên GDPval-AA, đánh giá công việc thực tế có giá trị kinh tế@deepseek_ai đã phát hành V4 Pro )1.6T tổng / 49B hoạt động( và V4 Flash )284B tổng / 13B hoạt động(. V4 là kích thước mới đầu tiên của DeepSeek kể từ V3, với tất cả các mô hình trung gian… pic.twitter.com/2kJWVrKQjF

— Artificial Analysis )@ArtificialAnlys( 24 tháng 4, 2026

V4 của DeepSeek còn giới thiệu một khái niệm gọi là “suy nghĩ xen kẽ.” Trong các mô hình trước, nếu bạn chạy một tác nhân thực hiện nhiều cuộc gọi công cụ—ví dụ, nó tìm kiếm trên web, rồi chạy mã, rồi tìm kiếm lại—ngữ cảnh lý luận của mô hình sẽ bị xóa giữa các vòng. Mỗi bước mới, mô hình phải xây dựng lại mô hình tinh thần từ đầu. V4 giữ nguyên chuỗi suy nghĩ đầy đủ qua các cuộc gọi công cụ, vì vậy một quy trình tác nhân 20 bước không bị mất trí nhớ giữa chừng. Điều này quan trọng hơn nhiều so với vẻ bề ngoài đối với bất kỳ ai chạy các pipeline tự động phức tạp. DeepSeek và chiến tranh AI Mỹ-Trung Mỹ đã hạn chế xuất khẩu các chip Nvidia cao cấp sang Trung Quốc từ năm 2022. Mục tiêu tuyên bố là làm chậm sự phát triển AI của Trung Quốc, nhưng lệnh cấm chip không ngăn được DeepSeek và thay vào đó họ đã phát minh ra kiến trúc hiệu quả hơn và xây dựng nguồn cung phần cứng nội địa. DeepSeek không phát hành V4 trong một môi trường trống rỗng—thị trường AI gần đây đã sôi động: Anthropic đã phát hành Claude Opus 4.7 vào ngày 16 tháng 4—một mô hình Decrypt thử nghiệm và phát hiện mạnh về mã hóa và lý luận, với mức sử dụng token cao đáng kể. Ngày hôm trước, Anthropic cũng đã có Claude Mythos, một mô hình an ninh mạng mà họ nói không thể phát hành công khai vì quá tốt trong các cuộc tấn công mạng tự động. Xiaomi ra mắt MiMo V2.5 Pro vào ngày 22 tháng 4, tích hợp đa phương thức—hình ảnh, âm thanh, video. Chi phí )đầu vào và (đầu ra trên mỗi triệu token. Nó phù hợp Opus 4.6 trong hầu hết các bài kiểm tra mã hóa. Ba tháng trước, chẳng ai nói về Xiaomi như một công ty AI tiên phong. Giờ đây, họ đang phát hành các mô hình cạnh tranh nhanh hơn hầu hết các phòng thí nghiệm phương Tây.

GPT-5.5 của OpenAI ra mắt hôm qua với chi phí tăng vọt lên )mỗi triệu token đầu ra trong phiên bản Pro. Nó vượt V4-Pro trong Terminal Bench 2.0 $1 82,7% so với 70,0%$3 , thử nghiệm các quy trình tác nhân dòng lệnh phức tạp. Nhưng chi phí cao hơn đáng kể so với V4-Pro cho các nhiệm vụ tương đương. Cùng ngày đó, Tencent cũng ra mắt Hy3, một mô hình tiên tiến khác tập trung vào hiệu quả. Điều này có ý nghĩa gì cho bạn Vì vậy, với nhiều mô hình mới như vậy, câu hỏi thực sự của các nhà phát triển là: Khi nào thì phí cao mới đáng? Đối với doanh nghiệp, có thể đã có sự thay đổi trong phép tính. Một mô hình dẫn đầu các bài kiểm tra mã nguồn mở với giá 1,74 USD cho mỗi triệu token đầu vào có nghĩa là xử lý tài liệu quy mô lớn, xem xét pháp lý, hoặc quy trình tạo mã mà cách đây sáu tháng còn đắt thì nay đã rẻ hơn nhiều. Ngữ cảnh một triệu token có thể cung cấp toàn bộ mã nguồn hoặc hồ sơ quy định trong một yêu cầu duy nhất thay vì chia nhỏ thành nhiều lần gọi. Ngoài ra, tính mã nguồn mở của nó có nghĩa là không chỉ có thể chạy miễn phí trên phần cứng cục bộ, mà còn có thể tùy chỉnh và cải tiến dựa trên nhu cầu và trường hợp sử dụng của công ty. Đối với các nhà phát triển và người xây dựng độc lập, V4-Flash là mô hình đáng chú ý. Với giá 0,14 USD đầu vào và 0,28 USD đầu ra, nó rẻ hơn các mô hình từng được coi là ngân sách hạn chế cách đây một năm—và nó xử lý hầu hết các nhiệm vụ mà phiên bản Pro làm được. Các endpoint deepseek-chat và deepseek-reasoner của DeepSeek đã chuyển hướng tới V4-Flash trong chế độ không suy nghĩ và suy nghĩ tương ứng, vì vậy nếu bạn đang dùng API, bạn đã đang sử dụng nó rồi. Các mô hình hiện chỉ xử lý văn bản. DeepSeek cho biết đang phát triển khả năng đa phương thức, nghĩa là các phòng thí nghiệm lớn khác từ Xiaomi đến OpenAI vẫn còn lợi thế đó. Cả hai mô hình đều được cấp phép MIT và có sẵn trên Hugging Face hôm nay. Các endpoint cũ deepseek-chat và deepseek-reasoner sẽ ngừng hoạt động vào ngày 24 tháng 7 năm 2026.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim