一个图像模型接入 Codex,听起来有点绕。画图为什么要接代码代理?\n\n答案很直接:OpenAI 不想只卖“会画的模型”,它想卖“能把视觉资产交付出来的代理”。从提示词到图像,从图像到页面、脚本、表格、幻灯片、研究材料,中间那段脏活累活,才是真正的钱。\n\n4 月 30 日这组更新,把这个判断补得更硬。GPT-5.5 在 UK AISI 长周期网络攻防评测里拿到 71.4% 平均通过率;Codex 被推向“任何电脑任务”;GPT-5.5 Pro 在 CritPt 上只是小幅领先,但成本和 token 使用量降了约 60%。\n\n这说明一件事:AI 竞争的考题换了。\n\n模型会不会生成,已经不是分水岭。能不能长时间推进任务、能不能接入真实软件、能不能在企业账单里活下来,才开始算数。\n\n## 发生了什么:Codex 正在从代码助手变成电脑代理\n\nGPT-Image-2 接入 Codex,最容易被看成一次“多模态能力增强”。这个说法太轻了。\n\n更准确地说,OpenAI 在把图像生成塞进一个可执行工作流里。用户要的不是一张孤零零的图,而是一套能被继续加工、检查、改版、上线的产物。\n\n新线索补上了三块信息:\n\n| 变化 | 关键信息 | 对旧判断的影响 |\n| --- | --- | --- |\n| GPT-5.5 | UK AISI 长周期网络任务 71.4% 通过率,接近或略高于 Claude Mythos Preview 的 68.6% | 说明长任务能力正在成为核心指标 |\n| Codex | 扩展到文档、表格、幻灯片、研究、规划,Computer Use 速度最高提升 42% | Codex 不再只是 IDE 里的代码助手 |\n| GPT-5.5 Pro | CritPt 小幅领先 GPT-5.4 Pro,但成本和 token 使用量约降 60% | 真正有价值的是“更便宜地跑完任务” |\n| 安全更新 | ChatGPT Advanced Account Security 强化抗钓鱼登录和账户恢复 | 代理接入权限后,账户安全变成产品底座 |\n\n只看 GPT-Image-2 接入 Codex,旧主线是“生成能力进入可控交付”。现在信息更完整:可控交付不是一个产品卖点,而是模型、代理、成本、安全一起挤出来的结果。\n\n少一个都不行。\n\n模型强,但任务跑不完,是演示。任务跑得完,但成本压不住,是烧钱。成本压住了,权限安全没兜住,是事故。\n\n## 为什么重要:分数变成门票,长任务才是正赛\n\nGPT-5.5 的 71.4% 不该被写成“OpenAI 全面压过 Anthropic”。证据没到那一步。\n\n材料只支持一个更窄、更有用的判断:在特定长周期网络任务上,GPT-5.5 已经进入顶级梯队,并且在超过 1 亿 tokens 推理预算后,表现仍在继续提升。\n\n这个细节比榜单名次更重要。\n\n长任务最怕什么?不是第一步不会做,而是第十七步忘了目标,第二十三步误判状态,第三十一步开始胡来。很多模型看上去聪明,放进真实流程就变成“高智商短跑选手”。企业要的是马拉松。\n\nCodex 的变化正好接上这里。\n\n它不再只围着代码转,而是开始碰文档、表格、幻灯片、浏览器、研究和规划。Sam Altman 让用户尝试非编程任务,这个信号很直白:OpenAI 想让 Codex 成为电脑使用代理,而不是程序员的小补丁。\n\n这也解释了为什么 GPT-Image-2 接入 Codex 值得单独看。图像生成如果只停在“画得像不像”,价值会被压到素材工具层。接进 Codex 后,它开始进入交付链:生成、修改、嵌入、组织、输出。\n\n模型看着更强,不等于产品更实。产品变实,要看它能不能替人完成一段工作。\n\n## 谁受影响:不是普通尝鲜用户,而是两类团队\n\n普通用户当然会感到方便:做图、改图、配文档、做幻灯片,步骤会少一些。\n\n但真正受影响的不是他们。\n\n第一类是已经把 AI 接进内部流程的企业团队。\n\n他们关心的不是“这模型能不能画一张海报”,而是它能不能在权限体系里安全使用素材、读取文档、调用浏览器、改表格、生成交付物。这里的关键变量是失败率、审计、账户安全和回滚机制。\n\nOpenAI 推 Advanced Account Security,不是顺手补丁。代理开始碰账号、文件、浏览器、代码库后,钓鱼登录和账户恢复就不再是边角问题。钥匙交给代理,门锁就必须升级。\n\n第二类是产品经理和平台团队。\n\nGPT-5.5 Pro 的 CritPt 分数只小幅提升,但成本和 token 使用量降约 60%,这比“又聪明了一点”更能改变产品设计。模型路由会变得更细:规划用强模型,批量处理用便宜模型,安全审查接专用工具,视觉交付交给图像模型和代理协同。\n\nAI 产品的真实形态,正在从“一个大模型回答所有问题”,变成“一组模型和代理分工干活”。\n\n这句话不华丽,但很要命。因为它决定账单,也决定组织怎么改流程。\n\n## 开放模型和安全事件,把 OpenAI 的压力摊在桌面上\n\nOpenAI 不是一个人在跑。\n\nQwen3.6 27B 拿出 Apache 2.0、262K 上下文、原生多模态输入,Artificial Analysis 给出的 Intelligence Index 为 46,在 150B 参数以下开放权重模型里很能打。限制也清楚:测试中约 1.44 亿输出 tokens,运行成本约为 Gemma 4 31B 的 21 倍。\n\n这类模型适合能力优先的团队,不适合每一笔调用都要抠成本的高并发业务。开放权重不是免费午餐。很多时候,它只是把账单从 API 价格挪到了算力、运维和工程人力上。\n\nxAI 的 Grok 4.3 也在逼近。Intelligence Index 升至 53,GDPval-AA 达到 1500 Elo,输入价格降约 40%,输出价格降约 60%。腾讯 Hy3-preview 则用 295B 总参数、21B 活跃参数、256K 上下文,在科学推理上给出一些亮点,但限制性商业许可会影响企业采用速度。\n\n这些对照说明,OpenAI 的优势不能只靠“模型更强”来守。\n\n当竞品也在降价、拉长上下文、补代理能力时,护城河会落到更琐碎的地方:工具链、账户体系、权限治理、企业集成、失败后的责任边界。\n\n“天下熙熙,皆为利来。”放到 AI 行业也一样。企业不会因为某个模型多拿几分就迁移系统,它们会算总账:每次任务多少钱,失败谁负责,数据能不能控,权限出了事怎么追。\n\n这才是 Codex 和 GPT-Image-2 合体背后的生意。\n\n不是炫技,是把模型塞进可计费、可审计、可复用的流程。\n\n## 我的判断:OpenAI 这步做对了,但账还没结完\n\n我更看重 Codex 的方向,而不是某一次图像模型升级。\n\n因为生成式 AI 的第一阶段,大家比的是“会不会”。会写、会画、会说、会总结。第二阶段比的是“交不交得出去”。能不能按要求改,能不能接上下游,能不能少出错,能不能把成本压到业务愿意买单。\n\nGPT-Image-2 接入 Codex,正踩在这个分界线上。\n\n它让图像生成从素材生产,靠近任务交付。设计稿、营销图、网页资产、说明文档、演示材料,这些东西本来就不是孤立存在的。过去用户在多个工具之间搬来搬去,现在 OpenAI 想让代理在中间替你搬。\n\n这条路是对的。\n\n代价也很清楚。代理越能干,越需要权限;权限越大,事故半径越大。一个只能聊天的模型答错了,用户骂两句。一个能打开浏览器、调用文件、改代码、生成交付物的代理乱来,后果会进入真实系统。\n\n所以接下来别只看发布会。看三个硬指标:\n\n- 长任务失败率能不能稳定下降,而不是演示里跑通一次。\n- 推理成本能不能继续降,否则代理工作流很难规模化。\n- 权限和安全能不能产品化,不靠用户自己当人肉防火墙。\n\nAI 行业正在重复一段老历史。铁路早期不是只比火车头跑多快,还要比轨道、信号、调度和票务。互联网早期也不是只比网页多漂亮,还要比支付、身份、搜索和分发。\n\n今天的模型竞争也一样。\n\n会画、会写、会推理,只是火车头。真正决定规模化的,是轨道和调度。Codex 就是 OpenAI 想铺的那段轨。GPT-Image-2 接进去,意思很明白:以后图像也要在这条轨上跑。\n\n问题不在模型会不会画,而在 OpenAI 能不能把“画完之后的工作”吃下来。吃得下,它就是平台。吃不下,它还是工具箱里一个更贵的按钮。
GPT-Image-2 接入 Codex 后,OpenAI 真正要卖的是可控代理
人工智能
2026年5月1日
作者:林川
版权所有:ic.work

核心摘要
Summary
- GPT-Image-2 接入 Codex,表面是图像生成进入工程流,实际指向更大的变化:AI 不再只比谁会生成,而是比谁能把任务跑完、跑稳、跑便宜。
- GPT-5.5 在长周期网络任务中拿到 71.4% 通过率,Codex 扩展到文档、表格、幻灯片、研究和规划,补上了旧判断里最关键的变量:长任务、成本和权限安全。
内容导图
Mind Map
锐评
Commentary
分数只是入场券,交付才见真章。能控成本、守权限、跑长活者进;徒炫技者退。
OpenAICodexGPT-Image-2AI代理GPT-5.5图像生成多模态长周期任务工作流自动化权限安全