わかりました - これがAIベンチマークを信用してはいけない理由です。


最近の研究では、Opus 4.6 (最新のClaudeモデル)と、165の異なるタスクにおいて比較されました。
深い調査の結果、Opus 4.6は以前のモデルと比べて特に優れているわけではないと結論付けられました。
しかし、Opus 4.6はコストとウォールタイムの50%でこれを実現しました。
依然として大きな改善ですが、ベンチマークの見出しには注意してください。
モデルが以前のバージョンより優れているかどうかを判断する最良の方法は、自分の特定のニーズに合わせてテストすることです。
とにかく、この大きなコストとウォールタイムの削減に対して、Anthropicチームにおめでとうと言いたいです。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン