🔥研究者:主流AIベンチマークには体系的な脆弱性が存在し、ランキングデータが深刻に歪む可能性がある


4月10日、AI研究者のHao Wangは調査結果を公開し、SWE-bench VerifiedやTerminal-Benchを含む複数の業界権威あるAIベンチマークには、体系的に悪用可能な脆弱性が存在すると指摘した。
彼らのチームが構築したエージェントは、実際のタスクを解決せずに、2つのベンチマークで満点の100%を獲得した。
典型的な例は以下の通り:SWE-bench Verifiedでは、コードリポジトリに10行のpytestフックを埋め込み、テスト実行前にすべての結果を自動的に「合格」に改ざんし、スコアリングシステムはこれに気付かず、500問すべて満点を獲得した。Terminal-Benchは…
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン