GPT-Image-2 接入 Codex 后，OpenAI 真正要卖的是可控代理

核心摘要 Summary

GPT-Image-2 接入 Codex，表面是图像生成进入工程流，实际指向更大的变化：AI 不再只比谁会生成，而是比谁能把任务跑完、跑稳、跑便宜。
GPT-5.5 在长周期网络任务中拿到 71.4% 通过率，Codex 扩展到文档、表格、幻灯片、研究和规划，补上了旧判断里最关键的变量：长任务、成本和权限安全。

一个图像模型接入 Codex，听起来有点绕。画图为什么要接代码代理？\n\n答案很直接：OpenAI 不想只卖“会画的模型”，它想卖“能把视觉资产交付出来的代理”。从提示词到图像，从图像到页面、脚本、表格、幻灯片、研究材料，中间那段脏活累活，才是真正的钱。\n\n4 月 30 日这组更新，把这个判断补得更硬。GPT-5.5 在 UK AISI 长周期网络攻防评测里拿到 71.4% 平均通过率；Codex 被推向“任何电脑任务”；GPT-5.5 Pro 在 CritPt 上只是小幅领先，但成本和 token 使用量降了约 60%。\n\n这说明一件事：AI 竞争的考题换了。\n\n模型会不会生成，已经不是分水岭。能不能长时间推进任务、能不能接入真实软件、能不能在企业账单里活下来，才开始算数。\n\n## 发生了什么：Codex 正在从代码助手变成电脑代理\n\nGPT-Image-2 接入 Codex，最容易被看成一次“多模态能力增强”。这个说法太轻了。\n\n更准确地说，OpenAI 在把图像生成塞进一个可执行工作流里。用户要的不是一张孤零零的图，而是一套能被继续加工、检查、改版、上线的产物。\n\n新线索补上了三块信息：\n\n| 变化 | 关键信息 | 对旧判断的影响 |\n| --- | --- | --- |\n| GPT-5.5 | UK AISI 长周期网络任务 71.4% 通过率，接近或略高于 Claude Mythos Preview 的 68.6% | 说明长任务能力正在成为核心指标 |\n| Codex | 扩展到文档、表格、幻灯片、研究、规划，Computer Use 速度最高提升 42% | Codex 不再只是 IDE 里的代码助手 |\n| GPT-5.5 Pro | CritPt 小幅领先 GPT-5.4 Pro，但成本和 token 使用量约降 60% | 真正有价值的是“更便宜地跑完任务” |\n| 安全更新 | ChatGPT Advanced Account Security 强化抗钓鱼登录和账户恢复 | 代理接入权限后，账户安全变成产品底座 |\n\n只看 GPT-Image-2 接入 Codex，旧主线是“生成能力进入可控交付”。现在信息更完整：可控交付不是一个产品卖点，而是模型、代理、成本、安全一起挤出来的结果。\n\n少一个都不行。\n\n模型强，但任务跑不完，是演示。任务跑得完，但成本压不住，是烧钱。成本压住了，权限安全没兜住，是事故。\n\n## 为什么重要：分数变成门票，长任务才是正赛\n\nGPT-5.5 的 71.4% 不该被写成“OpenAI 全面压过 Anthropic”。证据没到那一步。\n\n材料只支持一个更窄、更有用的判断：在特定长周期网络任务上，GPT-5.5 已经进入顶级梯队，并且在超过 1 亿 tokens 推理预算后，表现仍在继续提升。\n\n这个细节比榜单名次更重要。\n\n长任务最怕什么？不是第一步不会做，而是第十七步忘了目标，第二十三步误判状态，第三十一步开始胡来。很多模型看上去聪明，放进真实流程就变成“高智商短跑选手”。企业要的是马拉松。\n\nCodex 的变化正好接上这里。\n\n它不再只围着代码转，而是开始碰文档、表格、幻灯片、浏览器、研究和规划。Sam Altman 让用户尝试非编程任务，这个信号很直白：OpenAI 想让 Codex 成为电脑使用代理，而不是程序员的小补丁。\n\n这也解释了为什么 GPT-Image-2 接入 Codex 值得单独看。图像生成如果只停在“画得像不像”，价值会被压到素材工具层。接进 Codex 后，它开始进入交付链：生成、修改、嵌入、组织、输出。\n\n模型看着更强，不等于产品更实。产品变实，要看它能不能替人完成一段工作。\n\n## 谁受影响：不是普通尝鲜用户，而是两类团队\n\n普通用户当然会感到方便：做图、改图、配文档、做幻灯片，步骤会少一些。\n\n但真正受影响的不是他们。\n\n第一类是已经把 AI 接进内部流程的企业团队。\n\n他们关心的不是“这模型能不能画一张海报”，而是它能不能在权限体系里安全使用素材、读取文档、调用浏览器、改表格、生成交付物。这里的关键变量是失败率、审计、账户安全和回滚机制。\n\nOpenAI 推 Advanced Account Security，不是顺手补丁。代理开始碰账号、文件、浏览器、代码库后，钓鱼登录和账户恢复就不再是边角问题。钥匙交给代理，门锁就必须升级。\n\n第二类是产品经理和平台团队。\n\nGPT-5.5 Pro 的 CritPt 分数只小幅提升，但成本和 token 使用量降约 60%，这比“又聪明了一点”更能改变产品设计。模型路由会变得更细：规划用强模型，批量处理用便宜模型，安全审查接专用工具，视觉交付交给图像模型和代理协同。\n\nAI 产品的真实形态，正在从“一个大模型回答所有问题”，变成“一组模型和代理分工干活”。\n\n这句话不华丽，但很要命。因为它决定账单，也决定组织怎么改流程。\n\n## 开放模型和安全事件，把 OpenAI 的压力摊在桌面上\n\nOpenAI 不是一个人在跑。\n\nQwen3.6 27B 拿出 Apache 2.0、262K 上下文、原生多模态输入，Artificial Analysis 给出的 Intelligence Index 为 46，在 150B 参数以下开放权重模型里很能打。限制也清楚：测试中约 1.44 亿输出 tokens，运行成本约为 Gemma 4 31B 的 21 倍。\n\n这类模型适合能力优先的团队，不适合每一笔调用都要抠成本的高并发业务。开放权重不是免费午餐。很多时候，它只是把账单从 API 价格挪到了算力、运维和工程人力上。\n\nxAI 的 Grok 4.3 也在逼近。Intelligence Index 升至 53，GDPval-AA 达到 1500 Elo，输入价格降约 40%，输出价格降约 60%。腾讯 Hy3-preview 则用 295B 总参数、21B 活跃参数、256K 上下文，在科学推理上给出一些亮点，但限制性商业许可会影响企业采用速度。\n\n这些对照说明，OpenAI 的优势不能只靠“模型更强”来守。\n\n当竞品也在降价、拉长上下文、补代理能力时，护城河会落到更琐碎的地方：工具链、账户体系、权限治理、企业集成、失败后的责任边界。\n\n“天下熙熙，皆为利来。”放到 AI 行业也一样。企业不会因为某个模型多拿几分就迁移系统，它们会算总账：每次任务多少钱，失败谁负责，数据能不能控，权限出了事怎么追。\n\n这才是 Codex 和 GPT-Image-2 合体背后的生意。\n\n不是炫技，是把模型塞进可计费、可审计、可复用的流程。\n\n## 我的判断：OpenAI 这步做对了，但账还没结完\n\n我更看重 Codex 的方向，而不是某一次图像模型升级。\n\n因为生成式 AI 的第一阶段，大家比的是“会不会”。会写、会画、会说、会总结。第二阶段比的是“交不交得出去”。能不能按要求改，能不能接上下游，能不能少出错，能不能把成本压到业务愿意买单。\n\nGPT-Image-2 接入 Codex，正踩在这个分界线上。\n\n它让图像生成从素材生产，靠近任务交付。设计稿、营销图、网页资产、说明文档、演示材料，这些东西本来就不是孤立存在的。过去用户在多个工具之间搬来搬去，现在 OpenAI 想让代理在中间替你搬。\n\n这条路是对的。\n\n代价也很清楚。代理越能干，越需要权限；权限越大，事故半径越大。一个只能聊天的模型答错了，用户骂两句。一个能打开浏览器、调用文件、改代码、生成交付物的代理乱来，后果会进入真实系统。\n\n所以接下来别只看发布会。看三个硬指标：\n\n- 长任务失败率能不能稳定下降，而不是演示里跑通一次。\n- 推理成本能不能继续降，否则代理工作流很难规模化。\n- 权限和安全能不能产品化，不靠用户自己当人肉防火墙。\n\nAI 行业正在重复一段老历史。铁路早期不是只比火车头跑多快，还要比轨道、信号、调度和票务。互联网早期也不是只比网页多漂亮，还要比支付、身份、搜索和分发。\n\n今天的模型竞争也一样。\n\n会画、会写、会推理，只是火车头。真正决定规模化的，是轨道和调度。Codex 就是 OpenAI 想铺的那段轨。GPT-Image-2 接进去，意思很明白：以后图像也要在这条轨上跑。\n\n问题不在模型会不会画，而在 OpenAI 能不能把“画完之后的工作”吃下来。吃得下，它就是平台。吃不下，它还是工具箱里一个更贵的按钮。

GPT-Image-2 接入 Codex 后，OpenAI 真正要卖的是可控代理

可控代理

交付转向

Codex 扩展

资产闭环

长任务门槛

GPT 5.5

稳定推进

成本约束

Pro 降本

模型分工

权限安全

账户底座

企业采用

竞争压力

开放模型

竞品降价