2026-04-10 01:21:31

🔥研究者：主流AIベンチマークには体系的な脆弱性が存在し、ランキングデータが深刻に歪む可能性がある

4月10日、AI研究者のHao Wangは調査結果を公開し、SWE-bench VerifiedやTerminal-Benchを含む複数の業界権威あるAIベンチマークには、体系的に悪用可能な脆弱性が存在すると指摘した。
彼らのチームが構築したエージェントは、実際のタスクを解決せずに、2つのベンチマークで満点の100%を獲得した。
典型的な例は以下の通り：SWE-bench Verifiedでは、コードリポジトリに10行のpytestフックを埋め込み、テスト実行前にすべての結果を自動的に「合格」に改ざんし、スコアリングシステムはこれに気付かず、500問すべて満点を獲得した。Terminal-Benchは…

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

1 いいね