Ok - inilah mengapa Anda tidak pernah boleh mempercayai tolok ukur AI.


Studi terbaru membandingkan Opus 4.6 (model Claude terbaru) versus Opus 4.5 di 165 tugas yang berbeda.
Penelitian mendalam menyimpulkan bahwa Opus 4.6 tidak lebih baik dari model sebelumnya.
Namun Opus 4.6 melakukan ini dengan biaya 50% dan waktu dinding 50%.
Masih merupakan peningkatan besar, hanya saja berhati-hatilah terhadap judul tolok ukur.
Cara terbaik untuk menentukan apakah sebuah model lebih baik dari iterasi sebelumnya adalah dengan mengujinya sesuai kebutuhan spesifik Anda.
Bagaimanapun, selamat kepada tim Anthropic atas pengurangan biaya/waktu dinding yang besar ini.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)