2026-03-12 06:20:51

终于有一个真正重要的基准测试了。忘掉 MMLU 和数学成绩吧……PinchBench 测试哪个 AI 模型在实际工作中表现最好。不是回答琐事，而是真正做事情：→ 从多个网页来源查找信息 → 创建和安排会议 → 组织电脑上的文件 → 编写和管理电子邮件。它测试模型作为代理通过 OpenClaw 运行……意味着 AI 必须使用工具、链式操作，并完成端到端的任务。结果非常有趣：> Gemini 3 Flash 以 95.1% 领先 > MiniMax M2.1 紧随其后，达 93.6% > Kimi K2.5 达到 93.4% > Claude Sonnet 92.7% > Gemini 3 Pro 91.7% > Claude Haiku 90.8% > Claude Opus 4.6 90.6% > GPT-5 Nano 85.8% 顶端和底部的差距只有大约 10%……这意味着大多数前沿模型在代理任务上表现得相当不错。但真正的结论是？Gemini Flash……一个轻量级模型……在实际代理工作中超越了所有重量级模型。速度 + 工具使用 > 原始智能。这才是应该决定你日常使用哪个模型的基准……而不是一些没人关心的学术测试。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

评论

请输入评论内容

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate13周年全球庆典
1672.02万热度
#
TradFi首创多倍杠杆
55.81万热度
#
加密行情震荡
113.96万热度
#
创作者冲榜
3.02万热度
#
OpenAI拟推出桌面超级应用
66.95万热度

热门 Gate Fun
查看更多

1
MDOG
Mars Dog
市值:$0.1持有人数:1
0.00%
2
GT
EID
市值:$2334.48持有人数:1
0.00%
3
MEME
MEMECOIN
市值:$2334.48持有人数:1
0.00%
4
BUTTCOIN
BUTTCOIN
市值:$2320.68持有人数:1
0.00%
5
筑梦人生
筑梦人生
市值:$2320.68持有人数:1
0.00%