Модель GPT 5.5 выпущена: специализация на научных исследованиях и программировании! Посмотрите сравнение с Claude Opus 4.7 один раз

OpenAI突袭发布GPT-5.5模型,主打最强大且直觉的写程序与跨工具操作能力,本文整理GPT-5.5与Claude Opus 4.7与Gemini 3.1 Pro等主流模型的性能比较。

OpenAI的GPT-5.5模型来了!特色一次看

AI巨头OpenAI在台湾时间4月24日凌晨,突袭推出全新GPT-5.5模型,宣称是至今最聪明且操作最直觉的AI系统。

OpenAI表示,GPT-5.5模型具备强大AI代理人写程序能力,擅长处理代码除Bug、线上研究及跨工具操作。

与前代的GPT-5.4相比,GPT-5.5维持相同运算延迟水平,能以更少的标记完成任务。

OpenAI总裁Greg Brockman指出,新模型是迈向直觉运算的重要进展,也是打造结合ChatGPT、Codex与AI浏览器的超级应用程序的关键一步。

GPT-5.5模型费用方案与使用权限

即日起,ChatGPT的Plus、Pro、Business与Enterprise方案用户,以及Codex用户都可以使用GPT-5.5,进阶版GPT-5.5 Pro则提供给Pro、Business与Enterprise用户。

在API定价方面,GPT-5.5输入Token费用为每100万个5美元,输出为每100万个30美元。GPT-5.5 Pro输入Token为每100万个30美元,输出为每100万个180美元。

不过有趣的是,GPT-5.5模型发布的时间点,恰逢马斯克(Elon Musk)与OpenAI执行长奥特曼(Sam Altman)即将在法庭诉讼之际,引发外界关注。

GPT-5.5基准测试表现:优势与劣势分析

在性能基准测试(Benchmark)中,GPT-5.5展现技术优势,但部分领域仍面临挑战。

根据OpenAI官方数据,GPT-5.5模型在评估复杂命令列的Terminal-Bench 2.0测试里,准确率达到82.7%;在评估知识工作的GDPval测试中,则取得84.9%高分,显示日常办公具高度实用价值。

GPT-5.5在解决GitHub实际问题的SWE-Bench Pro公开测试成绩为58.6%,微幅落后Anthropic推出的Claude Opus 4.7的64.3%。

OpenAI虽注明测试可能受模型记忆效应影响,但仍反映GPT-5.5在特定开发除Bug存在劣势。

图源:OpenAIGPT-5.5基准测试表现:优势与劣势分析

在安全领域方面,Anthropic日前推出主打强大安全的Claude Mythos Preview模型,而GPT-5.5虽提升防御能力,目前仅通过特定渠道让认证企业用于基础设施防护。

主流模型比较:GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro

GPT-5.5与Claude Opus 4.7数据比较

综合OpenAI官方与ITmedia的测试资料,在测试实际电脑操作环境的OSWorld-Verified项目中,GPT-5.5得分78.7%,微幅领先Claude Opus 4.7的78.0%。

在进阶逻辑运算与工具协作的BrowseComp测试中,GPT-5.5取得84.4%成绩,胜过Claude Opus 4.7的79.3%;在检验高等数学能力的FrontierMath Tier 1至3测试中,GPT-5.5以51.7%超越Claude Opus 4.7的43.8%。

GPT-5.5与Gemini 3.1 Pro数据比较

与Gemini 3.1 Pro比较,GPT-5.5在多数专业测试维持领先。在GDPval知识工作测试中,GPT-5.5以84.9%超越Gemini 3.1 Pro的67.3%。

针对外部工具使用的Toolathlon评估中,GPT-5.5获得55.6%分数,优于Gemini 3.1 Pro的48.8%。

图源:OpenAIGPT-5.5与Gemini 3.1 Pro数据比较

在无工具辅助的MMMU Pro多模态测试中,GPT-5.5成绩为81.2%,Gemini 3.1 Pro为80.5%,两者表现十分接近。

GPT-5.5是为IPO上市铺路?

OpenAI研究长Mark Chen指出,GPT-5.5在科学与技术研究流程上带来实质的提升,未来有望协助科学家在药物发现等领域加速研究步伐。

外媒《The Verge》指出,这款新模型的问世,反映了OpenAI与Anthropic为了争夺企业级AI工具市场的主导权,并为今年稍晚可能进行的首次公开募股(IPO)铺路,双方正展开日益白热化的角力。

延伸阅读:
ChatGPT Images 2.0怎么用?实测牛肉面菜单、杂志封面、多国语言科普效果

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить