🔥研究员:主流AI基准测试存在系统性漏洞,排行榜数据或严重失真


4月10日,AI研究员Hao Wang发布研究披露,包括SWE-bench Verified和Terminal-Bench在内的多个业内权威AI基准测试,均存在可被系统性利用的漏洞——其团队构建的Agent在未解决任何实际任务的情况下,在两项基准上均取得了满分100%。
典型案例如下:SWE-bench Verified中,在代码仓库植入10行的pytest hook,测试运行前自动将所有结果篡改为“通过”,评分系统对此毫无察觉,500道题全部满分;Terminal-Bench虽对测试…
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论