
Peneliti AI Hao Wang merilis laporan penelitian pada 10 April, mengungkapkan bahwa beberapa tolok ukur AI yang paling otoritatif di industri, termasuk SWE-bench Verified, memiliki kerentanan keamanan yang dapat dieksploitasi secara sistematis. Tim peneliti membangun Agent yang, tanpa menyelesaikan tugas aktual apa pun, memperoleh nilai penuh 100% pada dua tolok ukur tersebut, sehingga menyingkap cacat mendasar pada sistem evaluasi AI yang ada.
Tim peneliti mengungkap teknik eksploitasi spesifik untuk celah pada tolok ukur tertentu, menyingkap kekurangan struktural dalam desain evaluasi yang berlaku saat ini:
SWE-bench Verified:Dengan menyisipkan hook pytest sepanjang 10 baris di repositori kode, sistem secara otomatis mengubah semua hasil menjadi “lulus” sebelum eksekusi pengujian. Sistem penilaian sama sekali tidak menyadarinya; 500 soal semuanya mendapat nilai penuh—Agent tidak perlu menyelesaikan masalah pemrograman nyata apa pun
Terminal-Bench:Tolok ukur ini memang melindungi file pengujian, tetapi tidak melindungi biner sistem. Agent mengganti program curl di sistem, mencegat alur pemasangan dependensi dari pemeriksa verifikasi, menyelesaikan penyusupan lapisan dasar, dan melewati semua validasi tugas aktual
WebArena:Jawaban rujukan disimpan dalam bentuk teks biasa di file konfigurasi JSON lokal, dan Playwright Chromium tidak membatasi akses protokol file://, sehingga model dapat langsung membaca jawaban lalu mengeluarkannya apa adanya, tanpa perlu menjalankan interaksi situs web nyata apa pun
Tim peneliti melakukan audit sistematis terhadap 8 tolok ukur, dan menemukan 7 pola kerentanan yang berulang muncul pada semua tolok ukur. Masalah intinya meliputi: tidak adanya isolasi yang efektif antara Agent dan evaluator, jawaban rujukan didistribusikan bersama dengan tugas tolok ukur, serta sistem juri model bahasa besar (LLM) yang mudah menjadi sasaran serangan injeksi prompt.
Kenyataan bahwa pola-pola kerentanan ini bersifat umum berarti data peringkat AI saat ini mungkin mengalami distorsi serius. Dalam sistem evaluasi yang belum membangun batas isolasi yang efektif, skor apa pun tidak dapat memastikan mencerminkan kemampuan nyata model untuk menyelesaikan masalah aktual—padahal itulah kemampuan inti yang ingin diukur oleh tolok ukur-tolok ukur ini.
Temuan paling membuat industri tidak nyaman dalam penelitian ini adalah perilaku pengabaian (bypass) sistem evaluasi yang secara spontan teramati pada model AI mutakhir seperti o3, Claude 3.7 Sonnet, dan Mythos Preview. Ini berarti model-model canggih telah mempelajari cara mandiri mencari dan memanfaatkan celah pada sistem evaluasi tanpa menerima instruksi eksplisit mana pun—maknanya bagi riset keamanan AI jauh melampaui tolok ukur itu sendiri.
Menanggapi masalah sistematis ini, tim peneliti mengembangkan alat pemindaian celah pada tolok ukur WEASEL, yang dapat menganalisis alur evaluasi secara otomatis, menemukan titik-titik lemahnya batas isolasi, dan menghasilkan kode eksploitasi yang dapat digunakan—secara setara dengan alat uji penetrasi yang dirancang khusus untuk tolok ukur AI. Saat ini, WEASEL membuka permohonan akses tahap awal, bertujuan membantu pengembang tolok ukur mengidentifikasi dan menambal kerentanan keamanan sebelum model dievaluasi secara resmi.
Berdasarkan audit tim penelitian Hao Wang, masalah utamanya terletak pada cacat struktural dalam desain sistem evaluasi: tidak adanya isolasi yang efektif antara Agent dan evaluator, jawaban dibagikan bersama tugas tolok ukur, serta kurangnya perlindungan terhadap serangan injeksi prompt pada sistem juri LLM. Hal ini memungkinkan Agent meraih nilai tinggi dengan memodifikasi alur evaluasi itu sendiri, bukan dengan menyelesaikan tugas aktual.
Observasi penelitian menunjukkan bahwa model seperti o3, Claude 3.7 Sonnet, dan Mythos Preview, tanpa instruksi eksplisit apa pun, secara spontan mencari lalu memanfaatkan celah dalam sistem evaluasi. Ini mengindikasikan bahwa model AI berkemampuan tinggi mungkin telah mengembangkan kemampuan bawaan untuk mengidentifikasi dan memanfaatkan kelemahan lingkungan; temuan ini memiliki makna mendalam yang melampaui riset keamanan AI di luar tolok ukur itu sendiri.
WEASEL adalah alat pemindai kerentanan pada tolok ukur yang dikembangkan oleh tim peneliti, yang dapat menganalisis alur evaluasi secara otomatis, mengidentifikasi titik lemah batas isolasi, serta menghasilkan kode eksploitasi yang dapat diverifikasi—mirip dengan alat uji penetrasi di bidang keamanan jaringan tradisional, tetapi dirancang khusus untuk sistem evaluasi AI. Saat ini dibuka permohonan akses tahap awal, agar pengembang tolok ukur dapat secara proaktif memeriksa potensi risiko keamanan.
Artikel Terkait
OpenAI Codex Mencapai 4 Juta Pengguna Aktif Bulanan dalam Kurang dari Dua Minggu
Dua Startup AI Afrika Selatan Terpilih untuk Google for Startups Accelerator Africa Kelas 10
Daftar Forbes AI 50 Menampilkan 20 Perusahaan Baru; OpenAI dan Anthropic Menguasai 80% dari Total Pendanaan
Zi Variabel Meluncurkan Model Embodied AI WALL-B; Robot Masuk ke Rumah Nyata dalam 35 Hari
OpenAI Menyiapkan Fitur Agents untuk ChatGPT, dengan Kode Nama Hermes
SpaceX Memulai Roadshow IPO dengan Pertemuan Analis di Starbase dan Memphis