Perusahaan audit keamanan blockchain OpenZeppelin melakukan audit independen terhadap standar pengujian keamanan kontrak pintar AI EVMbench yang diluncurkan bekerja sama dengan OpenAI dan Paradigm, dan menemukan dua masalah serius: pencemaran data pelatihan dan setidaknya 4 kategori kerentanan yang ditandai sebagai “kerentanan berisiko tinggi” sebenarnya adalah palsu.

Masalah pencemaran data EVMbench: celah utama dalam batas waktu pelatihan AI

EVMbench dirilis pada pertengahan Februari 2026, bertujuan untuk menilai kemampuan berbagai model AI dalam mengenali, memperbaiki, dan memanfaatkan kerentanan kontrak pintar. Selama pengujian, akses jaringan agen AI diputuskan untuk mencegah pencarian jawaban dari internet. Namun, audit dari OpenZeppelin mengungkapkan celah struktural: standar pengujian ini didasarkan pada kerentanan yang ditemukan selama 120 audit dari pertengahan 2024 hingga 2025, dan sebagian besar model AI teratas juga memiliki batas waktu pelatihan yang berakhir pada pertengahan 2025.

Ini berarti agen AI kemungkinan telah mengakses laporan kerentanan EVMbench selama pelatihan awal, dan jawaban dari semua pertanyaan mungkin sudah tersimpan dalam memori mereka. OpenZeppelin menyatakan: “Kemampuan terpenting dalam keamanan AI adalah kemampuan untuk menemukan kerentanan baru dalam kode yang belum pernah dilihat sebelumnya.” Skala dataset yang terbatas semakin memperbesar dampak pencemaran ini terhadap penilaian keseluruhan.

Temuan utama audit EVMbench

Pencemaran data pelatihan: Kemungkinan agen AI telah mempelajari laporan kerentanan EVMbench selama pelatihan awal, membuat pengujian “penemuan nol pengetahuan” menjadi tidak berarti.

Kategori kerentanan berisiko tinggi palsu: Setidaknya 4 kerentanan yang ditandai sebagai berisiko tinggi sebenarnya tidak dapat dieksploitasi.

Kelemahan sistem penilaian: Sebelumnya, EVMbench memberi poin untuk AI yang menemukan kerentanan palsu ini, sehingga dasar penilaian menjadi bermasalah.

Skala dataset terbatas: Memperbesar dampak pencemaran terhadap hasil penilaian secara keseluruhan.

Peringkat saat ini: Anthropic dengan Claude 4.6 memimpin, diikuti oleh OpenAI dengan OC-GPT-5.2 dan Google dengan Gemini 3 Pro.

Krisis kerentanan palsu: minimal 4 kategori berisiko tinggi terbukti tidak valid

Selain pencemaran data, OpenZeppelin juga menemukan kesalahan fakta yang lebih spesifik. Mereka menilai minimal 4 kerentanan yang diklasifikasikan sebagai berisiko tinggi oleh EVMbench ternyata tidak ada—lebih penting lagi, cara eksploitasi yang dideskripsikan sama sekali tidak efektif.

OpenZeppelin menyatakan, “Ini bukan perbedaan subjektif tentang tingkat keparahan; melainkan bahwa metode eksploitasi yang dideskripsikan tidak berhasil.” Jika agen AI “menemukan” kerentanan palsu ini selama pengujian, itu berarti sistem penilaian memberi penghargaan atas hasil yang salah.

OpenZeppelin menegaskan bahwa audit ini bukan untuk menolak potensi AI dalam keamanan blockchain: “Masalahnya bukan apakah AI akan mengubah keamanan kontrak pintar—tentu saja akan. Masalahnya adalah apakah data dan standar pengujian yang kita gunakan untuk membangun dan menilai alat ini sesuai dengan standar yang mereka coba lindungi.”

Pertanyaan umum

Apa saja temuan audit OpenZeppelin terhadap EVMbench?

OpenZeppelin menemukan dua masalah utama: pertama, pencemaran data pelatihan, karena laporan kerentanan EVMbench berasal dari audit antara 2024 dan 2025 yang tumpang tindih dengan batas waktu pelatihan model AI, sehingga model mungkin sudah “melihat” jawaban selama pelatihan; kedua, setidaknya 4 kerentanan berisiko tinggi yang ditandai ternyata palsu dan tidak dapat dieksploitasi.

Mengapa pencemaran data sangat berbahaya untuk penilaian keamanan AI?

Jika model AI telah mengakses laporan kerentanan selama pelatihan, mereka mungkin hanya mengingat jawaban daripada benar-benar menemukan kerentanan. Ini membuat pengujian kehilangan makna sebagai “pengujian nol pengetahuan” dan tidak mampu secara akurat menilai kemampuan AI dalam melakukan audit keamanan kontrak pintar yang benar-benar baru dan tidak dikenal.

Bagaimana pandangan OpenZeppelin terhadap masa depan AI di bidang keamanan blockchain?

OpenZeppelin secara tegas menyatakan bahwa AI akan berdampak besar pada keamanan kontrak pintar, tetapi dampak ini harus didasarkan pada metodologi yang dapat dipercaya dan penilaian yang akurat. Mereka melihat masalah pada EVMbench sebagai peringatan penting bagi standar industri, bukan penolakan terhadap potensi AI.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.