DeepSeek meluncurkan V4 versi pratinjau sumber terbuka, penilaian teknis 3206 melampaui GPT-5.4

MarketWhisper

DeepSeek V4開源預覽版

DeepSeek secara resmi meluncurkan rangkaian versi pratinjau V4 pada 24 April, dengan bobot model yang telah disinkronkan ke Hugging Face dan ModelScope, serta dirilis sebagai open-source di bawah lisensi MIT. Menurut laporan teknis DeepSeek V4, V4-Pro-Max (mode kekuatan inferensi maksimum) memperoleh 3206 poin pada tolok ukur Codeforces, melampaui GPT-5.4.

Spesifikasi arsitektur dua model MoE

Menurut laporan teknis DeepSeek V4, rangkaian V4 mencakup dua model campuran ahli (MoE):

V4-Pro: total parameter 1.6T, aktivasi per token 49B, mendukung konteks 1M token

V4-Flash: total parameter 284B, aktivasi per token 13B, juga mendukung konteks 1M token

Menurut laporan teknis, pada konteks 1M, FLOPs inferensi per token V4-Pro hanya 27% dari V3.2, cache KV turun menjadi 10% dari V3.2; terutama berkat peningkatan arsitektur dari mekanisme perhatian campuran (CSA perhatian jarang terkompresi + HCA perhatian terkompresi berat). Skala data praplatih melampaui 32T token; pengoptimal pelatihan diperbarui menjadi Muon.

Metodologi pasca-pelatihan: distilasi strategi online menggantikan reinforcement learning campuran

Menurut laporan teknis DeepSeek V4, pembaruan inti pasca-pelatihan V4 adalah menggantikan sepenuhnya tahap mixed RL (reinforcement learning campuran) V3.2 dengan distilasi strategi online (On-Policy Distillation, OPD). Proses baru dibagi menjadi dua langkah: pertama, melatih para pakar bidang secara terpisah untuk bidang seperti matematika, kode, Agent, dan mengikuti instruksi (SFT + reinforcement learning GRPO); kemudian, men-disti lasi kemampuan dari belasan ahli tersebut ke dalam satu model terpadu menggunakan multi-guru OPD, dengan penyelarasan melalui logit untuk menghindari konflik kemampuan yang umum terjadi pada metode tradisional.

Laporan ini juga memperkenalkan model hadiah generatif (Generative Reward Model, GRM), untuk tugas yang sulit diverifikasi dengan aturan, dengan melatih model menggunakan sejumlah kecil data anotasi manusia yang beragam, sehingga model dapat menjalankan fungsi generasi sekaligus evaluasi.

Hasil uji tolok ukur: unggul dalam pengkodean, namun masih ada kesenjangan pada penalaran pengetahuan

Menurut laporan teknis DeepSeek V4, hasil perbandingan V4-Pro-Max dengan Opus 4.6 Max, GPT-5.4 xHigh, dan Gemini 3.1 Pro High (tidak termasuk GPT-5.5 dan Opus 4.7 yang dirilis baru-baru ini):

Codeforces: 3206 (GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ Tertinggi di seluruh ajang

LiveCodeBench:93.5 → Tertinggi di seluruh ajang

SWE Verified:80.6, tertinggal 0.2 poin persentase dari Opus 4.6 yang 80.8

GPQA Diamond:90.1, tertinggal dari Gemini 3.1 Pro yang 94.3

SimpleQA-Verified:57.9, tertinggal dari Gemini 3.1 Pro yang 75.6

HLE:37.7, tertinggal dari Gemini 3.1 Pro yang 44.4

Laporan teknis tersebut sekaligus menyatakan bahwa perbandingan di atas tidak mencakup GPT-5.5 dan Opus 4.7 yang dirilis paling baru; perbedaan antara V4 dan model generasi terbaru yang tertutup masih perlu diverifikasi melalui evaluasi pihak ketiga.

FAQ (Pertanyaan yang Sering Diajukan)

Apa ketentuan lisensi open-source untuk pratinjau DeepSeek V4, dan di mana mendapatkannya?

Berdasarkan pengumuman resmi DeepSeek pada 24 April, rangkaian V4 dirilis sebagai open-source di bawah lisensi MIT, bobot model telah tersedia di Hugging Face dan ModelScope, serta dapat digunakan untuk keperluan komersial dan akademik.

Apa perbedaan skala parameter DeepSeek V4-Pro dan V4-Flash?

Menurut laporan teknis DeepSeek V4, total parameter V4-Pro adalah 1.6T, dengan aktivasi per token 49B; total parameter V4-Flash adalah 284B, dengan aktivasi per token 13B; kedua model mendukung konteks 1M token.

Apa hasil perbandingan tolok ukur DeepSeek V4-Pro-Max dengan GPT-5.4 dan Gemini 3.1 Pro?

Menurut laporan teknis DeepSeek V4, V4-Pro-Max melampaui GPT-5.4 dan Gemini 3.1 Pro pada dua tolok ukur Codeforces (3206 poin) dan LiveCodeBench (93.5), namun masih tertinggal pada tolok ukur yang padat pengetahuan (GPQA Diamond, SimpleQA-Verified, HLE) dari Gemini 3.1 Pro; kelompok perbandingan tidak mencakup GPT-5.5 dan Opus 4.7.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Fere AI Menyelesaikan Putaran Pendanaan $1,3 Juta yang Dipimpin oleh Ethereal Ventures

Pesan Berita Gate, 24 April — Fere AI, sebuah platform agen perdagangan aset digital bertenaga AI, mengumumkan penyelesaian putaran pendanaan senilai $1,3 juta yang dipimpin oleh Ethereal Ventures, dengan Galaxy Vision Hill dan Kosmos Ventures ikut berpartisipasi. Platform ini mendukung jaringan lintas-rantai termasuk Ethereum,

GateNews14menit yang lalu

Anthropic Melakukan Rollback Perubahan pada Claude Code Setelah Penurunan Kualitas; Semua Perbaikan Selesai

Pesan Berita Gate, 24 April — Anthropic telah mengakui penurunan baru-baru ini dalam kualitas Claude Code dan mengonfirmasi bahwa semua masalah terkait telah diselesaikan melalui rollback dan perbaikan. Masalah tersebut berasal dari tiga penyesuaian produk dan prompt yang dilakukan antara awal hingga pertengahan April. Pada 4 Maret,

GateNews1jam yang lalu

Pendiri NeoSoul Kaelan: Industri AI Harus Membiarkan Mainan Ada, Inovasi Sering Berawal dari Produk Eksperimental

Pesan Berita Gate, 24 April — Dalam sebuah forum terbaru di Hong Kong tentang keuangan terenkripsi cerdas, pendiri NeoSoul bersama Kaelan berbagi wawasan tentang cara mengevaluasi proyek AI pada tahap awal, di industri AI yang terus berkembang dengan cepat. Selain menilai produk saat ini, tim harus menunjukkan kemampuan untuk mengikuti perkembangan kemampuan model yang mendasarinya, katanya. Namun ...

GateNews2jam yang lalu

Meta Akan Menerapkan Puluhan Juta Chip AWS Graviton5 dalam Kesepakatan Multi-Tahun Bernilai Miliaran Dolar

Gate News pesan, 24 April — Meta telah menandatangani perjanjian multi-tahun dengan Amazon Web Services untuk menerapkan puluhan juta prosesor Graviton5 bagi infrastruktur AI-nya, menjadikan Meta salah satu pelanggan Graviton terbesar AWS secara global. Kesepakatan ini, yang berlangsung selama tiga hingga lima tahun, bernilai miliaran d

GateNews2jam yang lalu

DeepSeek V4-Flash naik ke Ollama Cloud, server AS: Claude Code, OpenClaw sekali klik integrasi

Ollama Cloud telah menambahkan DeepSeek V4-Flash, penalaran dijalankan di server di AS, dan menyediakan tiga set perintah sekali klik untuk menghubungkan Claude Code, OpenClaw, dan Hermes. V4-Flash/V4-Pro menggunakan arsitektur MoE, mendukung konteks 1M secara native, serta menurunkan biaya dengan kompresi Token-wise + perhatian jarang DSA; dalam skenario 1M, FLOPs per token turun 27%, dan cache KV turun 10%. API kompatibel dengan OpenAI ChatCompletions dan Anthropic, sehingga mudah untuk beralih antar berbagai alur kerja, mengurangi biaya dan risiko kedaulatan data.

ChainNewsAbmedia3jam yang lalu

Infrastruktur AI Web3 AIW3 Menggalang $2M dalam Pendanaan Seed yang Dipimpin oleh Buffalo Capital

Berita Gate, 24 April — Platform infrastruktur AI Web3, AIW3, mengumumkan penyelesaian pendanaan putaran seed sebesar $2 juta. Putaran ini dipimpin oleh Buffalo Capital, dengan GalaXin Capital dan Three-stones Ventures berpartisipasi sebagai co-investor. AIW3 beralih menuju paradigma eksekusi on-chain Agent-as-a-Service AaaS, menyediakan layanan strategi yang dapat dipanggil, orkestrasi agen otonom, dan aliran modal yang terkoordinasi oleh vault secara native. Proyek ini bertujuan membangun lapisan eksekusi on-chain generasi berikutnya yang bersifat sistem-level. Perusahaan menyatakan bahwa infrastruktur protokol intinya secara resmi telah memasuki tahap operasional real-time yang sepenuhnya dapat diverifikasi, meletakkan dasar bagi pengembangan jangka panjang jaringan agen terdesentralisasi yang dapat diskalakan dan ekosistemnya.

GateNews4jam yang lalu
Komentar
0/400
Tidak ada komentar