OpenAI 上线了 gpt-image-2。官方口径很猛,Sam Altman 在直播里把它说成接近一次代际跨越。

但这次更值得看的是条件。按同一条提示词实测,gpt-image-2 的优势不是默认就有,而是在 high quality 和最大分辨率下才打出来。换句话说,它赢了,但不是白送的赢。

这对两类人最重要:一类是要做复杂插画、活动海报、营销物料的团队;一类是把图像生成接进产品里的开发者。你们关心的不是发布会气氛,而是默认稳不稳、文字细节行不行、每张图多少钱。

同一提示词下,谁赢了,怎么赢的

测试提示词很简单:做一张《Where's Waldo》风格的图,内容是“找拿着业余无线电的浣熊”。

这不是严格基准测试,只是一个有代表性的压力样例。它同时考复杂构图、密集元素、画面文字和目标可识别性。商业插画最怕的,基本都在里面了。

模型结果事实锚点能说明什么
gpt-image-1疑似失败人眼没找到浣熊,Claude 也没确认出来老模型在这类复杂藏找图上不稳
Gemini Nano Banana 2成功浣熊在画面中央的业余无线电展台,比较容易看到默认档表现更可靠
Nano Banana Pro结果最差浣熊巨大又突兀,画面失衡“Pro”不自动等于更好
gpt-image-2 默认疑似失败人眼和 Claude 都没识别出目标新模型默认档没有稳稳赢
gpt-image-2 high + 3840x2160成功复杂细节、文字元素和目标物都更完整真正优势建立在高质量高分辨率前提上

这里有个限制必须说清。默认档里“没找到浣熊”,不能写成“确定没有”。最多只能说疑似失败,或至少人眼和 Claude 都没识别出来。

更麻烦的是,模型在“看图找图”这一步本身也不可靠。原文后续还提到,有人让 ChatGPT 给疑似失败的图把浣熊圈出来,模型能自信地圈出原图里并不存在的目标。这说明多模态模型不只会生成错,也会在验收时一本正经地看错。

所以,别把这种自证当裁判。自己出题,自己判题,最容易判出一场幻觉胜利。

gpt-image-2 的强,建立在更重的配置上

真正成功的那张 gpt-image-2 图片,用的是 high quality,尺寸拉到 3840x2160。输出用了 13,342 个 output tokens。

按文中引用的 OpenAI 价格,output tokens 是 30 美元/百万。这一张图大约 0.4 美元。注意,这不是所有生成任务的统一价格,只是这一次、这个尺寸、这个质量档的单次结果。

把条件摆出来,结论就没那么玄了:

  • 默认档,未必稳过 Gemini
  • 高质量大尺寸档,效果明显更好
  • 更好的效果,伴随更高输出和更高成本

这就是我不太买账“代际飞跃”叙事的原因。它当然有进步。但眼下更像“高配模式下的阶段性领先”,不是任何场景、任何预算、任何默认设置下都自动成立的优势。

这类故事并不新。早年的机器翻译、语音识别、推荐系统,都走过同一段路:演示很亮,采购很冷。产品经理看 demo 会兴奋,财务看调用量会皱眉。不完全一样,但骨架很像。

技术提升是真的。只是它常常不是一句“模型更聪明了”就能解释完,更多时候是资源、算力、token 和工程调参一起堆出来的结果。说得直白点,今天很多“飞跃”,本质上仍是把贵的东西做得更好,而不是把好的东西做得更便宜。

对开发者和产品团队,这意味着什么

如果你是做营销视觉、带文字海报、复杂活动页插画的团队,这次发布值得试,但不该立刻把旧方案全换掉。

原因很简单。你真正采购的不是一张好图,而是一种可重复、可预算、可交付的能力。现在从这个样例看,gpt-image-2 有机会给出更强结果,但胜利条件比较苛刻。

更具体一点,两类人会直接调整动作:

  • 做产品接入的开发者,会先把 gpt-image-2 放进高质量素材流或付费档,而不是默认全量替换
  • 做内容生产的团队,会先观望成本和稳定性,再决定要不要迁移生成链路

这不是保守,是算账。默认档不稳,就很难当成基础能力;只有高配档稳定,最后就会变成“精品图能做,批量图不一定划算”。

还有一个工程细节也值得记住。原文提到,OpenAI 的 Python 客户端当时还没更新到 gpt-image-2,只是因为客户端不校验模型 ID,才可以先用。这不算大问题,但很说明现实:模型先发,工具链未必跟上。发布会在前,工程支持在后,这在 AI 圈已经成了常态。

接下来真正该盯的,不是再看几张样图,而是三件事:

接下来要看什么为什么重要对决策的影响
默认档会不会变稳决定它能不能做成基础能力稳了才适合批量接入
复杂文字和布局能否低成本复现决定商业物料是否真能落地复现不了就只能做演示图
价格能不能压下来决定高质量模式能否规模化价格不降,团队会分层使用

如果这三项没有改善,gpt-image-2 就更像一个适合重点项目、精品场景的强模型,而不是能普遍替代现有方案的通用选项。

一句话,它现在展示出来的不是“无条件碾压”,而是“加条件后领先”。两者差得很远。