Ok - inilah mengapa Anda tidak pernah boleh mempercayai tolok ukur AI.
Studi terbaru membandingkan Opus 4.6 (model Claude terbaru) versus Opus 4.5 di 165 tugas yang berbeda. Penelitian mendalam menyimpulkan bahwa Opus 4.6 tidak lebih baik dari model sebelumnya. Namun Opus 4.6 melakukan ini dengan biaya 50% dan waktu dinding 50%. Masih merupakan peningkatan besar, hanya saja berhati-hatilah terhadap judul tolok ukur. Cara terbaik untuk menentukan apakah sebuah model lebih baik dari iterasi sebelumnya adalah dengan mengujinya sesuai kebutuhan spesifik Anda. Bagaimanapun, selamat kepada tim Anthropic atas pengurangan biaya/waktu dinding yang besar ini.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Ok - inilah mengapa Anda tidak pernah boleh mempercayai tolok ukur AI.
Studi terbaru membandingkan Opus 4.6 (model Claude terbaru) versus Opus 4.5 di 165 tugas yang berbeda.
Penelitian mendalam menyimpulkan bahwa Opus 4.6 tidak lebih baik dari model sebelumnya.
Namun Opus 4.6 melakukan ini dengan biaya 50% dan waktu dinding 50%.
Masih merupakan peningkatan besar, hanya saja berhati-hatilah terhadap judul tolok ukur.
Cara terbaik untuk menentukan apakah sebuah model lebih baik dari iterasi sebelumnya adalah dengan mengujinya sesuai kebutuhan spesifik Anda.
Bagaimanapun, selamat kepada tim Anthropic atas pengurangan biaya/waktu dinding yang besar ini.