Konferensi pers menyoroti SWE-bench, tetapi sinyal sejati tersembunyi di catatan kaki, blok pengantar, dan satu kalimat tak mencolok tentang mode otomatis. OG lama selesai menyeruput kopi ini, saya akan bongkar.

ZOMBIE CAFÉ · 16 APRIL 2026 · PALO ALTO

Di California Ave, Palo Alto, cahaya pagi pukul sembilan setengah, menyinari dari jendela kaca Coupa Café, menyinari setengah gelas flat white yang sudah dingin di tangan Alan Walker. Dia baru saja selesai membaca situs Anthropic, bersandar di kursi, dan membuka percakapan dengan Tony yang baru saja duduk di depannya.

“Peluncuran Opus 4.7 dari Anthropic kali ini cukup terbatas—fokus utamanya adalah beberapa kolom di SWE-bench, kutipan pelanggan yang diputar, dan satu gambar alignment yang cantik. Kebanyakan media teknologi hanya menyalin siaran pers lalu pergi.”

“Tapi inti sebenarnya tersembunyi di catatan kaki, panduan migrasi, dan kalimat santai seperti ‘auto mode diperluas ke pengguna Max’. Kamu harus membacanya seperti membaca laporan 10-K—isi utama untuk retail, catatan kaki untuk institusi.”

“Sebelum kopi ini habis, saya akan bongkar delapan pedang. Setiap pedang akan saya jelaskan siapa yang dipangkasnya.”

—— BLADE NO. 01

xhigh bukan sekadar peningkatan level — Default diam-diam dinaikkan

Konferensi singkat: “Dalam Claude Code, kami telah menaikkan tingkat usaha default ke xhigh untuk semua rencana.”

Sebagian besar orang melihat xhigh dan mengira ini hanya penambahan level—seperti iPhone warna baru. Salah besar. Sinyal sebenarnya ada di kalimat terakhir—semua rencana di Claude Code sekarang default-nya di xhigh.

Ini adalah langkah sangat Anthropic: diam-diam menaikkan baseline semua orang satu level, tapi tagihan komputasi tetap sama. Seolah memberi kamu kolega yang lebih pintar, tapi tanpa kenaikan gaji.

TONY: Tunggu, ini berarti pengguna Pro sebelumnya yang bayar $20 untuk medium, sekarang langsung dapat xhigh?

ALAN: Betul. Dan kutipan dari Hex itu, baca baik-baik—“low-effort 4.7 ≈ medium-effort 4.6”. Dengan default yang dinaikkan, efektivitas kecerdasan yang didapat pengguna biasa melonjak dua level. Konferensi pers tidak menyoroti angka ini karena mereka tidak ingin konsumsi token di halaman itu terlihat buruk.

Situasi nyata

Senin pagi, kamu minta Claude Code ubah modul backend 500 baris—dulu harus manual ketik /effort max baru biar dia jalan sendiri; sekarang, kamu tidak perlu apa-apa, default-nya sudah xhigh, tinggal kembali dengan secangkir kopi, pekerjaan selesai. Bedanya bukan 10% lebih cepat, tapi “kamu tidak perlu repot lagi.”

DAFTAR PEMBUNUH

→ SaaS “AI tuning / prompt configuration”—alat yang mengajarkan cara mengatur anggaran pemikiran, memilih effort, dan sebagainya, nilai default otomatis benar, tapi lapisan tengah tidak ada bisnisnya

→ Posisi engineer tingkat dasar—pekerjaan yang dilakukan default di xhigh sudah setara dengan engineer berpengalaman tiga tahun

→ Perusahaan outsourcing code review—lapisan ketiga akan mematikan ini

—— BLADE NO. 02

Auto Mode — Revolusi diam UI izin

Catatan kaki ketiga di konferensi: “Auto mode diperluas ke pengguna Max.” Hanya satu kalimat.

Situs resmi Anthropic: “auto mode adalah opsi izin baru di mana Claude membuat keputusan atas nama Anda.”—“mengambil keputusan untuk Anda.”

Setahun terakhir, semua startup agen berkompetisi di dua ekstrem: satu sisi skip-all-permissions (jalan Devin, Cognition), sisi lain penuh pop-up approve/deny (Cursor awal). Anthropic memilih jalan ketiga: melatih model agar bisa memutuskan kapan harus bertanya, kapan tidak, dan menginternalisasi kemampuan ini ke dalam auto mode.

KAI: Alan, ini apa bedanya dengan skip permissions? Kan sama-sama membiarkan dia jalan sendiri?

ALAN: Jauh berbeda. skip adalah kamu mencabut pengaman, kalau terjadi apa-apa kamu yang bertanggung jawab. auto adalah model yang memasang sistem pengaman sendiri—kalau berbahaya, dia aktif berhenti dan tanya, kalau risiko rendah, dia tangani sendiri. Intinya, layer “permission UI” ini dipindahkan dari lapisan produk ke bobot model.

TONY: Jadi startup seperti YC yang buat “agent governance / guardrails”…

ALAN: Produk jadi bagian dari model. Ini contoh nyata dari apa yang Andrej katakan tahun lalu: “the model is the product.”

DAFTAR PEMBUNUH

→ SaaS guardrails / approval flow untuk agen—semua kategori ini diperkecil

→ Industri RPA tradisional (UiPath / Automation Anywhere)—nilai inti mereka adalah “automasi terkendali”, sekarang kontrolnya sudah internal

→ Back-office outsourcing BPO—data entry, customer dispatch, invoice reconciliation di Filipina dan India, auto mode bisa jalankan satu hari penuh, satu tim penuh kerja

—— BLADE NO. 03

/ultrareview — Surat perintah pembunuhan untuk Senior Engineer

Kata resmi: “sesi review khusus yang membaca perubahan dan menandai bug serta isu desain yang akan terdeteksi reviewer teliti.”

Perhatikan kata itu—“a careful reviewer”. Bukan junior, bukan linter, tapi “reviewer teliti”. Dalam bahasa awam: senior engineer.

David Loker dari CodeRabbit memberi angka lebih langsung: recall meningkat lebih dari 10%, mampu menemukan bug paling sulit di PR paling kompleks, precision hampir tidak berkurang. Recall meningkat, precision tetap—ini adalah grail dalam bidang code review, sebelumnya dicapai Google dengan Tricorder selama sepuluh tahun.

MARCUS: Kami di FAANG, satu staff engineer setahun bayar $800K, setengah waktunya review PR. Kalau ini benar-benar bisa jalan…

ALAN: Pro dan Max pengguna dapat tiga kali ultrareview gratis, buat coba-coba. Ini trik “freemium” Silicon Valley—beri mereka rasa, lalu mereka tidak bisa kembali.

MARCUS: Jadi ini bukan alat, tapi pengganti.

ALAN: Tidak sepenuhnya. Ini bukan menggantikan staff, tapi menggantikan dua jam review PR setiap sore. Dua jam yang dilepaskan itu, senior tetap senior, bukan bot GitHub manusia.

Situasi nyata

Tim engineer 20 orang, dulu tech lead habiskan tiga jam setiap hari review PR. Sekarang, pakai /ultrareview, tech lead cukup lihat beberapa “design issue” yang ditandai Claude—dari tiga jam jadi dua puluh menit, waktu yang dihemat benar-benar digunakan untuk arsitektur. Ini bukan “bantuan AI”, tapi penulisan ulang posisi pekerjaan.

DAFTAR PEMBUNUH

→ Semua startup AI code review independen—CodeRabbit, Codacy, Qodo—sekarang jadi fitur Anthropic

→ Alat keamanan statis dinamis (SAST / DAST)—aturan-driven scanning, kini dilibas oleh “membaca kode seperti manusia”

→ Jasa review code outsourcing India/Eropa Timur—pasar ini bernilai puluhan miliar dolar selama sepuluh tahun terakhir, sekarang menguap

—— BLADE NO. 04

Resolusi visual 2.576 piksel—Computer-Use bertransformasi dari demo menjadi senjata

“Ukuran maksimal gambar yang dapat diterima adalah 2.576 piksel di sisi terpanjang, sekitar 3,75 juta piksel, tiga kali lipat sebelumnya.”

Ini yang paling diremehkan. Kebanyakan orang cuma mikir “oh, lebih HD”. Salah besar. Ini adalah titik balik dari kategori computer-use dari demo ke produksi.

Bukti ada di kutipan paling bawah di halaman rilis, di mana CEO XBOW, Oege de Moor, berkata—

54,5% → 98,5%. Ini bukan peningkatan bertahap, tapi lonjakan dari “tidak bisa dipakai” ke “tidak bisa tidak dipakai”. Opus 4.6 masih menebak tombol di layar, 4.7 sudah bisa membaca teks kecil di dashboard dan tabel bersarang.

SARAH: Klien perusahaan kami selalu terjebak di titik ini. 4.6 bisa otomatiskan scan faktur, tapi error setengah—bos langsung bilang “jangan main-main”.

ALAN: Sekarang angka 98,5% ini berarti RPA, IT operation, audit pengeluaran, migrasi sistem lama—semua pekerjaan yang masih bergantung mata manusia—mulai punya model yang bisa diandalkan.

KAI: computer use bukan lagi demo, tapi produktivitas.

ALAN: Betul, dan ingat—ini upgrade di level model, bukan parameter API. Pengguna lama tidak perlu ubah apa-apa, otomatis dapat manfaatnya. Anthropic diam-diam meningkatkan kekuatan produk dari semua integrator.

DAFTAR PEMBUNUH

→ SaaS OCR / pemahaman dokumen (Rossum / Hyperscience / Nanonets)—moat mereka awalnya “visual + terstruktur”, sekarang didorong oleh model umum bahkan melampaui

→ Tiga raksasa RPA tradisional—teknologi pengenalan layar UiPath, nilainya hilang setengah dalam semalam

→ Departemen entri data perusahaan—klaim asuransi, KYC bank, pengolahan formulir pemerintah, seluruh proses manual

→ Industri pengujian penetrasi / red team—perusahaan seperti XBOW malah mendapat manfaat, tapi jasa pentesting tradisional tertekan

—— BLADE NO. 05

Memori Sistem File—Anthropic pilih jalan paling sederhana

Catatan kaki di konferensi: “Opus 4.7 lebih baik dalam menggunakan memori berbasis sistem file. Mengingat catatan penting selama sesi panjang dan multi-sesi.”

OpenAI pakai “embedded memory”—menyembunyikan memori di dalam model, tidak terlihat dan tidak bisa diubah. Google sedang mengembangkan infini-attention yang misterius. Anthropic kali ini tampil: file system adalah memori. Claude menulis catatan .md, membaca .md, dan kamu bisa langsung cat keluar untuk dilihat.

Pilihan ini tampak low-tech, tapi sebenarnya kemenangan prinsip pertama. Masalah utama memori bukan penyimpanan, tapi audit, edit, dan migrasi. Basis data vektor dan embedded memory melanggar tiga poin ini.

ERIC: Klien perusahaan paling takut adalah “apa yang AI ini ingat tentang saya, saya tidak tahu.”

ALAN: Memori file system langsung menyelesaikan masalah kepatuhan. Hak penghapusan GDPR? rm saja. Audit SOC2? cat ke auditor. Ini bukan keunggulan teknologi, tapi keunggulan hukum.

ERIC: Jadi startup yang buat “layer memori AI”…

ALAN: Mem0, LangMem, Zep—tahun ini mereka banyak dana. Mereka menyelesaikan masalah “model tidak mengelola memori sendiri”, Anthropic memasukkan kemampuan ini ke dalam model, dan pakai file system POSIX paling sederhana. Lapisan tengah dilewati.

DAFTAR PEMBUNUH

→ Startup infrastruktur memori AI (Mem0 / LangMem / Zep)—nilai proposisi diinternalisasi ke model

→ Penggunaan memori agentik di basis data vektor—narasi utama Pinecone, Weaviate terpengaruh

→ Layer AI untuk peningkatan SaaS manajemen pengetahuan perusahaan—Claude langsung baca tulis file proyek, tanpa middleware

—— BLADE NO. 06

Anggaran Tugas—memberi agen rem, lalu lepas gas

“Memberi pengembang cara membimbing pengeluaran token Claude agar bisa memprioritaskan pekerjaan dalam sesi panjang.” (beta publik)

Ini yang diabaikan semua media, tapi ini terobosan penting dalam pengembangan agen jangka panjang tahun ini.

Setahun terakhir, semua perusahaan agen berhadapan dengan satu masalah: token untuk tugas panjang tidak terkendali. Berikan Devin atau Cursor tugas kompleks, mereka jalan dua jam, lalu kembali lapor membakar $800, pekerjaan setengah selesai. Bos langsung pingsan melihat tagihan.

Desain anggaran tugas ini sangat cerdas—bukan sekadar batas token, tapi model bisa melihat sisa anggaran, memutuskan langkah mana yang dilewati, dan bagaimana menyelesaikan pekerjaan dengan tingkat keberhasilan tertinggi.

CLAIRE: Ini kan sama dengan prinsip “minimum deliverable” dalam manajemen proyek?

ALAN: Betul. Anthropic melatih skill scope-cutting ini ke dalam model. Kalau kamu beri $10 anggaran untuk jalankan agen, dia akan otomatis putuskan fitur mana yang cukup 80%, mana yang harus 100%.

TONY: Jadi kutipan dari Notion—“tes kebutuhan implisit”—yang pertama lolos—

ALAN: Betul. Model mulai punya “kesadaran sumber daya”, bisa menebak apa yang tidak diucapkan tapi diharapkan, dan utamakan dalam anggaran. Ini melatih “penilaian senior engineer” ke dalamnya.

DAFTAR PEMBUNUH

→ Infrastruktur pengendalian biaya AI / startup pengamatan LLM (Helicone / Langfuse biaya) — fitur utama diinternalisasi

→ Kerangka orkestrasi agen (beberapa penggunaan LangGraph / CrewAI)—model bisa merencanakan anggaran sendiri, tanpa pengaturan eksternal

→ Bagian manajemen proyek industri konsultasi tradisional—“alokasi sumber daya + pemangkasan pengiriman” diambil alih model

—— BLADE NO. 07

Proof sebelum coding—perilaku baru Vercel

Joe Haddad, Insinyur Terhormat di Vercel: “Bahkan melakukan proof pada kode sistem sebelum mulai kerja, ini perilaku baru yang belum pernah kita lihat dari model Claude sebelumnya.”

Kalimat ini tersembunyi di antara dua puluh kutipan lain, tidak diperhatikan banyak orang. Tapi OG lama langsung berhenti menyeruput kopi.

“Proofs on systems code”—sebelum menulis kode sistem, model akan melakukan pembuktian matematis/formal. Bukan karena lebih pintar, tapi model mulai menggunakan metode verifikasi seperti paper PhD untuk memvalidasi kode sendiri.

MARCUS: Perilaku ini muncul dari data pelatihan, menunjukkan Anthropic secara sadar memberi reward “buktikan dulu baru kode”.

ALAN: Betul, ini sengaja dilatih. Gabungkan dengan bagian Vercel dan Genspark tentang “loop resistance”, serta Hex yang “melaporkan data hilang secara benar daripada fallback palsu”, kamu melihat rangkaian lengkap pelatihan rasa—membuat model bekerja seperti insinyur yang tidak gampang tertipu.

MARCUS: Tidak gampang tertipu—berarti tidak menipu diri sendiri.

ALAN: Betul. Opus 4.7 tidak lagi sekadar buatkan solusi yang terlihat bisa jalan untuk menyelesaikan tugas. Ini adalah implementasi nyata dari alignment di level produk.

DAFTAR PEMBUNUH

→ Pasar alat verifikasi formal (beberapa bagian)—seperti Coq/Lean/TLA+ yang high-threshold, model bantu kamu

→ Industri trading frekuensi tinggi / audit keamanan blockchain—jasa audit utama (“baca kode cari inkonsistensi”) jadi kolaborasi model, harga audit turun

→ Pengujian penetrasi / red team—perusahaan seperti XBOW malah mendapat manfaat, jasa pentesting tradisional tertekan

—— BLADE NO. 08

Verifikasi Siber—peluang regulasi terbuka

“Selama pelatihan, kami bereksperimen mengurangi kemampuan ini secara berbeda.”

Operasi paling menarik di sini. Anthropic mengakui selama pelatihan mereka secara aktif menurunkan kemampuan serangan dan pertahanan Opus 4.7, karena Mythos Preview yang lebih kuat tidak dirilis. Lalu—

Mereka meluncurkan Cyber Verification Program, di mana peneliti keamanan, pentester, dan red team bersertifikat bisa membuka akses level lebih tinggi.

ERIC: Ini… bukankah ini versi model dari kontrol ekspor?

ALAN: Lebih tepatnya, ini “KYC kemampuan”. Model punya tiga level kemampuan, kamu harus membuktikan identitas untuk membuka level tertentu. Peluang regulasi ini pertama kali diisi oleh AI company sendiri.

ERIC: Apa artinya buat startup?

ALAN: Pertama, startup “AI + keamanan” harus mendapatkan sertifikasi Anthropic untuk masuk ke level atas, rantai pasoknya sudah dikontrol. Kedua, muncul kategori baru: jasa konsultasi yang membantu perusahaan mendapatkan sertifikasi Anthropic—seperti perusahaan yang membantu lolos SOC2 hari ini. Ketiga, ini adalah cara Anthropic menguji model frontier di masa depan, Mythos yang dirilis akan semakin ketat.

TONY: Jadi perusahaan seperti Palantir, Booz Allen yang punya latar belakang kepatuhan pemerintah…

ALAN: Mereka otomatis punya lapisan perlindungan. Mereka sudah punya identitas tingkat tinggi, otomatis bisa akses model top.

Situasi nyata

Seorang YC startup yang ingin buat AI pentesting, mulai Q2 2026, harus jawab di proposal: “Apakah kalian sudah mendapatkan Cyber Verification dari Anthropic?” Tidak? VC tidak akan investasi. Dapat? Nilai perusahaan langsung naik dua kali lipat. Satu sertifikasi, jadi pembeda di pasar modal.

DAFTAR PEMBUNUH & Industri Baru

→ Startup SaaS keamanan siber umum—tanpa sertifikasi Anthropic, tidak bisa akses kemampuan level atas, batasan jadi penghalang

→ Industri konsultasi “kepatuhan kemampuan AI”—akan muncul perusahaan yang bantu perusahaan dapat sertifikasi frontier model

→ Perusahaan militer dan pemerintah (Palantir / Booz Allen)—dengan sendirinya mendapatkan keunggulan, batasan jadi benteng

→ Open source / lokal—Llama, Qwen, DeepSeek—tanpa sertifikasi tetap bisa pakai, jadi nilai jual utama

Alan Walker menaruh gelas kosong di meja, menutup MacBook.

Di luar, matahari California Ave sudah menanjak di atas atap Palo Alto Creamery, sinar miring menyinari kaca.

“Delapan pedang, diarahkan ke delapan arah. Ada jalur yang mulai mati hari ini, ada yang mulai hidup hari ini.”

“Setiap peluncuran frontier model, yang sejati tidak tertulis di headline.” katanya ke Tony, “konferensi pers untuk analis. Catatan kaki dan angka di kutipan, itu yang kita lihat.”

“Jangan cuma ikut-ikutan.”

— Alan

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GatePreIPOsLaunchesWithSpaceX
166.77K Popularitas
#
Gate13thAnniversaryLive
690.85K Popularitas
#
IsraelStrikesIranBTCPlunges
29.99K Popularitas
#
AltcoinsRallyStrong
7.29M Popularitas
#
AnthropicvsOpenAIHeatsUp
1.05M Popularitas

Sematkan

peta situs

Model terbaru Anthropic Opus4.7 dengan 8 Blade Tersembunyi

Topik Trending

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Sematkan