Ollama, alat untuk menjalankan model AI lokal, pada 4/24 diumumkan secara terbuka di platform X bahwa mereka akan memasukkan model V4-Flash yang dirilis sehari sebelumnya oleh startup AI China DeepSeek ke layanan Ollama Cloud. Host mesin inferensi berada di Amerika Serikat, dan menyediakan tiga set perintah sekali klik agar developer dapat langsung menghubungkan V4-Flash ke alur kerja pengembangan aplikasi AI arus utama seperti Claude Code, OpenClaw, dan Hermes.

deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…

— ollama (@ollama) April 24, 2026

Pratinjau DeepSeek V4: dua ukuran, konteks 1M

Berdasarkan pengumuman yang dirilis oleh dokumen API resmi DeepSeek pada 4/24, DeepSeek-V4 Preview dirilis secara open source dalam dua ukuran yang disinkronkan:

Model Parameter total Parameter aktif Target DeepSeek-V4-Pro 1,6 miliar 49 miliar Ditujukan untuk flagship yang tertutup DeepSeek-V4-Flash 2.840 miliar 130 miliar Cepat, efisien, biaya rendah

Kedua model sama-sama mengadopsi arsitektur Mixture-of-Experts（MoE）, dengan dukungan native untuk konteks panjang hingga 1 juta tokens. Dalam pengumuman tersebut, DeepSeek menyatakan: “Konteks 1M sekarang adalah nilai default untuk semua layanan resmi DeepSeek.”

Inovasi arsitektur: DSA Sparse Attention + kompresi berbasis Token

Perbaikan arsitektur inti seri V4 mencakup:

Kompresi berbasis Token yang dipadukan dengan DSA（DeepSeek Sparse Attention）—— secara signifikan menurunkan biaya untuk komputasi inferensi dan memori cache KV pada konteks yang sangat panjang

Dibandingkan dengan V3.2, pada skenario konteks 1 juta tokens, V4-Pro hanya membutuhkan 27% FLOPs per token untuk inferensi, dan KV cache hanya memerlukan 10%

Mendukung pergantian dua mode, Thinking dan Non-Thinking, untuk memenuhi kebutuhan penalaran mendalam pada tugas yang berbeda

Pada level API sekaligus kompatibel dengan spesifikasi OpenAI ChatCompletions dan Anthropic APIs, sehingga menurunkan biaya migrasi bagi klien Claude/GPT yang sudah ada.

Tiga set perintah sekali peluncuran di Ollama Cloud

Halaman model resmi Ollama, dengan pengenal model deepseek-v4-flash:cloud, menyediakan layanan inferensi cloud. Developer dapat menggunakan tiga set perintah berikut untuk langsung menyambungkan V4-Flash ke alur kerja pengembangan aplikasi AI yang sudah ada:

Workflow Perintah Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

Yang perlu diperhatikan adalah sinyal “host Amerika”. Bagi perusahaan dan developer Eropa-Amerika, kekhawatian terbesar saat menggunakan model open source China adalah data dikembalikan ke China; Ollama memilih menempatkan lapisan inferensi V4-Flash di Amerika Serikat, yang berarti prompt dan konten kode tidak keluar dari yurisdiksi hukum Amerika Serikat, sehingga mengurangi gesekan pada aspek kepatuhan dan kedaulatan data.

Mengapa hal ini penting bagi industri AI

Dengan menghubungkan tiga ekosistem yang sebelumnya berdiri sendiri—DeepSeek V4-Flash, Ollama Cloud, dan Claude Code—muncul tiga makna berlapis:

Jalur biaya: Parameter aktif V4-Flash sebesar 13 miliar jauh lebih kecil daripada GPT-5.5（input 5 dolar, output 30 dolar per 1 juta tokens）dan flagship seperti Claude Opus 4.7; untuk tugas agen skala menengah-kecil, ringkasan batch, otomatisasi pengujian, dll., biaya per unit diperkirakan turun secara signifikan

Lapisan penengah risiko geopolitik: Sebagai lapisan inferensi perantara yang terdaftar di Amerika Serikat, Ollama memungkinkan pengguna perusahaan model asli China untuk menghindari kekhawatiran bahwa “data langsung dikirim ke server DeepSeek di Beijing”—ini adalah solusi praktis untuk penyebaran model open source secara internasional

Pergantian instan bagi developer: Pengguna Claude Code dan OpenClaw dapat mengganti model dalam satu baris di command line, tanpa perlu mengubah struktur prompt atau pengaturan IDE; untuk skenario seperti “uji regresi multi-model” dan “tugas batch yang sensitif biaya”, ini benar-benar melepaskan produktivitas di dunia nyata

Keterkaitan dengan berita DeepSeek sebelumnya

Rilis V4 kali ini terjadi bersamaan dengan integrasi cepat dengan Ollama Cloud, di tengah latar DeepSeek yang sedang dalam pembicaraan pembiayaan eksternal putaran pertama dengan valuasi 20 miliar dolar. V4 adalah bukti produk kunci dalam proses kapitalisasi perusahaan DeepSeek; sementara strategi open source + penyebaran cepat bersama mitra host internasional adalah “perang kecepatan” sebelum membangun monopoli ekosistem developer. Bagi OpenAI dan Anthropic, model pengganti open source yang bisa diganti dalam satu baris di dalam Claude Code adalah variabel baru dalam perebutan dominasi alur kerja agent.

Artikel ini, “DeepSeek V4-Flash hadir di Ollama Cloud, host Amerika: Claude Code, OpenClaw sambungan sekali klik”, pertama kali muncul di Berita Rantai ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.