OpenAI 週二正式發布 ChatGPT Images 2.0,不僅大幅提升文字生成的准确度、以及海报与人像上的设计美感。该模型也首次引入“思考模式”,让图像生成具备网络搜索与多图批量输出能力,向商业应用场景全面靠拢。
(Canva 宣布深度整合 Claude,实现将 AI 草稿转化为设计成品)
从凭空捏造到完美菜单:AI 终于学会拼字
回顾两年前,AI 图像生成模型在文字生成的弱点几乎人尽皆知,只要提示词中包含文字需求,输出结果往往充斥荒谬的拼写错误甚至是凭空捏造,在非英语的中日韩语言中更加严重。
官方公告的韩文海报示意图
如今,ChatGPT Images 2.0 已能生成一张可直接供业者使用的宣传海报,文字清晰准确。研究人员近年來积极探索自我回归模型 (Autoregressive Models) 等新架构,其其运作逻辑、对文字的理解、生成与验证能力显著提升。
思考模式上线:连网搜索、构图一致性统统到位
ChatGPT Images 2.0最核心的升级在于“思考模式 (Thinking Capabilities)”,目前向 ChatGPT Plus、Pro、商用版及企业版付费用户开放。启用后,模型可即时连网搜索资讯以辅助图像生成,也能根据用户上传的档案制作对应的可视化说明图,并在正式输出前对图像内容进行自我审查与优化。
在批量生成方面,思考模式下单一提示词最多可一次输出八张图像,且各图之间能维持一致的角色形象、物件样式与整体风格,适合用于漫画分镜、社群媒体系列图文,乃至室内设计的各空间规划图。
官方公告的漫画分镜示意图
解析度方面,新模型支持最高 2K 输出,并新增从 3:1 到 1:3 的多种长宽比选项,进一步满足各种商业需求。
亚洲语言大幅优化,中日韩用户有福了!
除英文外,OpenAI 特别指出 Images 2.0 在亚洲文字上的重大优化,日文、韩文与中文等均有明显改善。
几天前广为流传于中国科技社群的测试文章也验证了该消息,多位知乎创作者在当时进行 GPT-Image-2 与竞品 Google Nano Banana Pro 的实测比较,包括中文海报设计、电商封面图、社群媒体界面与数据化图表等多种场景。
知乎文章测试 GPT-Image 2.0
测试结果显示,GPT-Image-2 在中文字体现美感、排版层级与整体设计感上均明显胜出,生成的海报风格更接近真实商业素材,而非带有明显“AI 感”的模板式输出。文章同时指出,GPT-Image-2 在界面复刻 (如游戏画面或通讯软件截图) 与真实人像场景的还原上,也展现出更高的细节精确度。
ChatGPT Images 2.0 全面开放,API 同步上线
目前,ChatGPT Images 2.0 已自本週二起向所有 ChatGPT 及 Codex 用户免费提供基础功能,付费用户则可解锁更进阶的输出效果。与此同时,OpenAI 也同步开放 GPT-Image-2 API,定价依据输出品质与解析度分级计算,为企业端与开发者提供整合弹性。
值得注意的是,新模型的知识截止日期为 2025 年 12 月,对于涉及最新时事的图像生成提示词,准确度可能受到一定限制。此外,复杂构图的生成速度也无法像一般文字问答即时报,但仍仅需几分钟。
这篇文章 ChatGPT Images 2.0 登场!文字生成准确度大提升,轻松产出营销海报 最早出现于 鏈新闻 ABMedia。
相关文章