DeepSeek merilis versi pratinjau DeepSeek-V4-Pro dan DeepSeek-V4-Flash pada 24 April 2026, keduanya merupakan model open-weight dengan jendela konteks satu juta token dan harga yang jauh di bawah alternatif Barat yang sebanding. Model V4-Pro berharga $1.74 per sejuta token input dan $3.48 per sejuta token output—sekitar 1/20 harga Claude Opus 4.7 dan 98% lebih murah daripada GPT-5.5 Pro, menurut spesifikasi resmi perusahaan.

Arsitektur Model dan Skala

DeepSeek-V4-Pro memiliki 1,6 triliun total parameter, menjadikannya model open-source terbesar di pasar LLM hingga saat ini. Namun, hanya 49 miliar parameter yang aktif per pass inferensi, menggunakan apa yang disebut DeepSeek sebagai pendekatan Mixture-of-Experts yang disempurnakan sejak V3. Desain ini memungkinkan seluruh model tetap dorman sementara hanya potongan yang relevan yang aktif untuk setiap permintaan, sehingga mengurangi biaya komputasi sambil mempertahankan kapasitas pengetahuan.

DeepSeek-V4-Flash beroperasi pada skala yang lebih kecil dengan 284 miliar total parameter dan 13 miliar parameter aktif. Menurut benchmark DeepSeek, ia “mencapai kinerja penalaran yang sebanding dengan versi Pro ketika diberikan anggaran thinking yang lebih besar.”

Kedua model mendukung konteks satu juta token sebagai fitur standar—sekitar 750.000 kata, atau kira-kira seluruh trilogi “Lord of the Rings” ditambah teks tambahan.

Inovasi Teknis: Mekanisme Attention dalam Skala Besar

DeepSeek mengatasi masalah penskalaan komputasi yang melekat dalam pemrosesan konteks panjang dengan menciptakan dua jenis attention baru, sebagaimana dijelaskan dalam makalah teknis perusahaan yang tersedia di GitHub.

Mekanisme attention standar AI menghadapi masalah penskalaan yang kejam: setiap kali panjang konteks berlipat dua, biaya komputasi kira-kira menjadi empat kali lipat. Solusi DeepSeek melibatkan dua pendekatan saling melengkapi:

Compressed Sparse Attention bekerja dalam dua langkah. Pertama, ia mengompresi kelompok token—misalnya, setiap 4 token—menjadi satu entri. Lalu, alih-alih menghadiri semua entri terkompresi, ia menggunakan “Lightning Indexer” untuk memilih hanya hasil yang paling relevan untuk setiap kueri. Ini mengurangi cakupan attention model dari satu juta token menjadi kumpulan yang jauh lebih kecil dari potongan penting.

Heavily Compressed Attention mengambil pendekatan yang lebih agresif, meng-collapse setiap 128 token menjadi satu entri tanpa seleksi spars. Meskipun ini kehilangan detail yang presisi, ia menyediakan pandangan global yang sangat murah. Kedua jenis attention dijalankan pada lapisan yang bergantian, sehingga model dapat mempertahankan detail sekaligus gambaran umum.

Hasilnya: V4-Pro menggunakan 27% dari komputasi yang dibutuhkan pendahulunya (V3.2). KV cache—memori yang dibutuhkan untuk melacak konteks—turun menjadi 10% dari V3.2. V4-Flash mendorong efisiensi lebih jauh: 10% komputasi dan 7% memori dibandingkan V3.2.

Kinerja Benchmark dan Posisi Kompetitif

DeepSeek memublikasikan perbandingan benchmark yang komprehensif terhadap GPT-5.4 dan Gemini-3.1-Pro, termasuk area di mana V4-Pro tertinggal dari kompetitor. Pada tugas penalaran, penalaran V4-Pro tertinggal di belakang GPT-5.4 dan Gemini-3.1-Pro sekitar tiga hingga enam bulan, menurut laporan teknis DeepSeek.

Di mana V4-Pro unggul:

Codeforces (pemrograman kompetitif): V4-Pro mencetak 3.206, menempatkannya sekitar peringkat ke-23 di antara peserta kontes manusia yang sebenarnya
Apex Shortlist (masalah matematika dan STEM yang dikurasi): tingkat kelulusan 90,2% dibandingkan Opus 4.6 sebesar 85,9% dan GPT-5.4 sebesar 78,1%
SWE-Verified (penyelesaian issue GitHub): 80,6%, menyamai Claude Opus 4.6

Di mana V4-Pro tertinggal:

MMLU-Pro (multitasking): Gemini-3.1-Pro 91,0% dibandingkan V4-Pro 87,5%
GPQA Diamond (pengetahuan ahli): Gemini 94,3 dibandingkan V4-Pro 90,1
Ujian Terakhir Humanity (tingkat pascasarjana): Gemini-3.1-Pro 44,4% dibandingkan V4-Pro 37,7%

Pada tugas konteks panjang, V4-Pro memimpin model open-source dan mengalahkan Gemini-3.1-Pro pada CorpusQA (mensimulasikan analisis dokumen dunia nyata pada satu juta token), tetapi kalah dari Claude Opus 4.6 pada MRCR, yang mengukur pengambilan informasi spesifik yang terkubur dalam teks panjang.

Kemampuan Agentik dan Pengodean

V4-Pro dapat dijalankan di Claude Code, OpenCode, dan alat pengodean AI lainnya. Menurut survei internal DeepSeek terhadap 85 developer yang menggunakan V4-Pro sebagai agen pengodean utama, 52% mengatakan bahwa model tersebut siap menjadi model default mereka, 39% cenderung setuju, dan kurang dari 9% mengatakan tidak. Pengujian internal DeepSeek menunjukkan V4-Pro mengungguli Claude Sonnet dan mendekati Claude Opus 4.5 pada tugas pengodean yang bersifat agentik.

Artificial Analysis menempatkan V4-Pro pertama di antara semua model open-weight pada GDPval-AA, sebuah benchmark yang menguji pekerjaan pengetahuan yang bernilai secara ekonomi di bidang keuangan, hukum, dan tugas penelitian. V4-Pro-Max mencetak 1.554 Elo, mengungguli GLM-5.1 (1.535) dan M2.7 MiniMax (1.514). Claude Opus 4.6 mencetak 1.619 pada benchmark yang sama.

V4 memperkenalkan “interleaved thinking”, yang mempertahankan seluruh rantai pemikiran di seluruh pemanggilan alat. Pada model-model sebelumnya, ketika sebuah agen melakukan beberapa pemanggilan alat—seperti melakukan pencarian web, menjalankan kode, lalu mencari lagi—konteks penalaran model dibersihkan di antara putaran. V4 menjaga kesinambungan penalaran lintas langkah, mencegah hilangnya konteks pada alur kerja otomatis yang kompleks.

Lanskap Kompetitif dan Konteks Penetapan Harga

Rilis V4 hadir di tengah aktivitas signifikan di ruang AI. Anthropic mengirimkan Claude Opus 4.7 pada 16 April 2026. GPT-5.5 milik OpenAI diluncurkan pada 23 April 2026, dengan GPT-5.5 Pro berharga $30 per sejuta token input dan $180 per sejuta token output. GPT-5.5 mengalahkan V4-Pro pada Terminal Bench 2.0 (82,7% versus 70,0%), yang menguji alur kerja agen command-line yang kompleks.

Xiaomi merilis MiMo V2.5 Pro pada 22 April 2026, menawarkan kemampuan multimodal penuh (image, audio, video) pada $1 input dan $3 output per sejuta token. Tencent merilis Hy3 pada hari yang sama dengan GPT-5.5.

Untuk perspektif harga: CEO Cline Saoud Rizwan mencatat bahwa jika Uber menggunakan DeepSeek alih-alih Claude, anggaran AI 2026-nya—dilaporkan cukup untuk empat bulan pemakaian—akan bertahan tujuh tahun.

Penerapan dan Ketersediaan

V4-Pro dan V4-Flash keduanya berlisensi MIT dan tersedia di Hugging Face. Untuk saat ini, model hanya teks; DeepSeek menyatakan sedang mengerjakan kemampuan multimodal. Kedua model dapat dijalankan secara gratis pada perangkat keras lokal atau disesuaikan berdasarkan kebutuhan perusahaan.

Endpoint yang sudah ada dari DeepSeek, yakni deepseek-chat dan deepseek-reasoner, sudah merutekan ke V4-Flash pada mode non-thinking dan thinking masing-masing. Endpoint lama deepseek-chat dan deepseek-reasoner akan dihentikan pada 24 Juli 2026.

DeepSeek melatih V4 sebagian dengan chip Huawei Ascend, sehingga menghindari pembatasan ekspor AS. Perusahaan menyatakan bahwa ketika 950 supernode baru hadir pada akhir 2026, harga model Pro yang sudah rendah itu akan turun lebih lanjut.

Implikasi Praktis

Untuk perusahaan, struktur penetapan harga dapat mengubah perhitungan manfaat-biaya. Sebuah model yang memimpin benchmark open-source dengan harga $1.74 per sejuta token input membuat pemrosesan dokumen skala besar, peninjauan hukum, dan pipeline pembuatan kode menjadi jauh lebih murah dibanding enam bulan sebelumnya. Konteks satu juta token memungkinkan seluruh basis kode atau dokumen pengajuan regulasi diproses dalam satu permintaan alih-alih dipecah menjadi potongan di beberapa panggilan.

Bagi developer dan pembuat independen, V4-Flash menjadi pertimbangan utama. Dengan harga $0.14 untuk input dan $0.28 untuk output per sejuta token, ia lebih murah daripada model yang dianggap opsi anggaran setahun lalu sambil menangani sebagian besar tugas yang dikelola oleh versi Pro.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

AprDaydream

· 4jam yang lalu

Harap pihak resmi menyediakan mekanisme log aktivitas / pemutaran ulang yang dapat diaudit, jika tidak, akan sulit untuk menuntut tanggung jawab jika terjadi masalah, terutama untuk akun aset yang dioperasikan secara otomatis.

Lihat AsliBalas0

PaperHandsPro

· 4jam yang lalu

Memahami niat dalam aplikasi nyata adalah tantangan utama, semoga tidak lagi muncul situasi memalukan di mana kamu ingin memesan tiket pesawat, tetapi dia mengubah CV-mu.

Lihat AsliBalas0

Half-SectionedSucculent

· 4jam yang lalu

Sedikit berharap, juga sedikit takut: bisa mengklik mouse sama dengan bisa melakukan banyak hal yang hanya bisa dilakukan oleh "klik manusia", pengendalian risiko dan anti penipuan harus ditingkatkan.

Lihat AsliBalas0

ACalmnessWithAHintOfPomelo

· 4jam yang lalu

Gelombang ini juga akan berdampak pada Web3, otomatisasi operasi di blockchain, proses penandatanganan, interaksi dompet, jika bisa dilakukan secara mulus, bentuk produk akan berubah.

Lihat AsliBalas0

StarsInTheGlassDome

· 4jam yang lalu

API dan harga jangan buru-buru, lihat dulu apakah bisa tahan terhadap pop-up, multi-jendela, dan jitter jaringan di lingkungan desktop yang kompleks.

Lihat AsliBalas0

GateUser-b665e41c

· 4jam yang lalu

Merasa bahwa dari "bisa berbicara dan menulis" berevolusi menjadi "bisa melakukan dan menyerahkan", langkah selanjutnya adalah memberinya memori dan manajemen tugas yang lebih baik.

Lihat AsliBalas0

LintCollector

· 4jam yang lalu

Jika benar-benar dapat menghubungkan lintas aplikasi: menjelajah browser untuk mencari data → mengolah di Excel → membuat presentasi di PPT → mengirim melalui email, maka itu adalah rangkaian lengkap proses kerja kantor yang tertutup.

Lihat AsliBalas0

DegenWithNotebook

· 4jam yang lalu

Akhirnya sudah bisa dioperasikan secara native di desktop? Sekarang benar-benar harus menjadi "magang digital".

Lihat AsliBalas0