2026-04-10 01:21:31

🔥研究员：主流AI基准测试存在系统性漏洞，排行榜数据或严重失真

4月10日，AI研究员Hao Wang发布研究披露，包括SWE-bench Verified和Terminal-Bench在内的多个业内权威AI基准测试，均存在可被系统性利用的漏洞——其团队构建的Agent在未解决任何实际任务的情况下，在两项基准上均取得了满分100%。
典型案例如下：SWE-bench Verified中，在代码仓库植入10行的pytest hook，测试运行前自动将所有结果篡改为“通过”，评分系统对此毫无察觉，500道题全部满分；Terminal-Bench虽对测试…

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate上线Pre-IPOs
20.49万热度
#
Gate现货衍生品双双冲进全球前三
959.07万热度
#
原油小幅上涨
117.53万热度
#
美伊停火协议谈判再生变故
56.37万热度
#
加密市场回升
5.21万热度

热门 Gate Fun
查看更多

1
JKWI
Jokochan
市值:$2268.96持有人数:1
0.00%
2
Loveyou
Loveyou
市值:$0.1持有人数:0
0.00%
3
NMM
NoMoon
市值:$0.1持有人数:0
0.00%
4
God light
God light
市值:$2272.41持有人数:1
0.00%
5
Putincoin
Putincoin
市值:$2265.51持有人数:1
0.00%

🔥研究员：主流AI基准测试存在系统性漏洞，排行榜数据或严重失真

热门话题

Gate上线Pre-IPOs

Gate现货衍生品双双冲进全球前三

原油小幅上涨

美伊停火协议谈判再生变故

加密市场回升

热门 Gate Fun

JKWI

Jokochan

Loveyou

Loveyou

NMM

NoMoon

God light

God light

Putincoin

Putincoin

置顶