akhirnya sebuah tolok ukur yang benar-benar penting.


lupakan MMLU dan skor matematika.. PinchBench menguji model AI mana yang terbaik dalam melakukan pekerjaan nyata.
bukan menjawab trivia. benar-benar melakukan hal-hal:
→ mencari informasi dari berbagai sumber web
→ membuat dan menjadwalkan pertemuan
→ mengatur file di komputer Anda
→ menulis dan mengelola email
ini menguji model yang berjalan sebagai agen melalui OpenClaw.. artinya AI harus menggunakan alat, menghubungkan tindakan, dan menyelesaikan tugas dari awal hingga akhir.
hasilnya menarik:
> Gemini 3 Flash memimpin dengan 95.1%
> MiniMax M2.1 di belakang dengan 93.6%
> Kimi K2.5 dengan 93.4%
> Claude Sonnet dengan 92.7%
> Gemini 3 Pro dengan 91.7%
> Claude Haiku dengan 90.8%
> Claude Opus 4.6 dengan 90.6%
> GPT-5 Nano dengan 85.8%
perbedaan antara yang teratas dan terbawah hanya sekitar ~10%.. yang berarti sebagian besar model frontier semakin mahir dalam tugas agen.
tapi pelajaran utama? Gemini Flash.. sebuah model ringan.. mengungguli setiap model berat dalam pekerjaan agen yang praktis. kecepatan + penggunaan alat > kecerdasan murni.
ini adalah jenis tolok ukur yang harus menentukan model mana yang Anda gunakan setiap hari.. bukan ujian akademik yang tidak relevan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan