🚨 ANTHROPIC MENETAPKAN BARELASIN BARU DENGAN CLAUDE OPUS 4.7


Ini adalah langkah maju yang terukur dalam kinerja agenik.
64,3% di SWE-bench, meningkat dari 53,4%
87,6% pada pengkodean agenik yang diverifikasi
77,3% pada penggunaan alat yang diskalakan
78,0% pada tugas komputer dunia nyata
Ini juga meningkatkan di mana model biasanya menurun:
79,3% pada pencarian agenik
64,4% pada analisis keuangan
91,5% pada tanya jawab multibahasa
Dan yang penting, penalaran konteks panjang tetap kokoh:
Lebih dari 90% penalaran visual dengan alat
94,2% pada tolok ukur tingkat pascasarjana
BERIKUT ADALAH INTINYA:
Ini bukan tentang skor puncak.
Ini tentang konsistensi di seluruh domain.
Opus 4.7 tidak mendominasi setiap kategori.
Tapi ia tampil secara andal di semua bidang tersebut.
Itulah yang dibutuhkan sistem produksi.
Perbatasan tidak lagi hanya kecerdasan.
Ini adalah stabilitas di bawah beban kerja nyata.
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan