#GatePreIPOsLaunchesWithSpaceX Anthropic 搞来了“炮台”:Claude Opus 4.7 😈
Anthropic 刚刚推出 Claude Opus 4.7——截至目前今天最强大的公开模型。并在对比表里展示了 Claude Mythos Preview——内部的“怪兽”,由于其强大的网络能力(,暂时不给所有人开放)。
代理式编程 (对开发者来说最重要)
SWE-bench Pro (解决复杂真实的缺陷修复任务):
Mythos Preview — 77.8% | Opus 4.7 — 64.3% | Opus 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified:Mythos — 93.9% | Opus 4.7 — 87.6% | Opus 4.6 — 80.8%
这简直是巨大的跃进。Mythos 几乎把 2024–2025 年这些模型在真实 GitHub 任务上的结果翻了一番。
Terminal-Bench 2.0 (在终端里完成工作、代理式编码):
Mythos — 82.0% | GPT-5.4 — 75.1% | Opus 4.7 — 69.4%
多方思维与复杂任务 Humanity’s Last Exam (——最严苛的“人类最后考试”之一:多学科、研究生水平):
Mythos — 5