GPT-5.5发布：OpenAI真正要推的，是Codex这个AI工作入口

人工智能 2026年4月24日

核心摘要 Summary

OpenAI发布GPT-5.5，并大幅升级Codex。
GPT-5.5的重点是长程执行、电脑使用和成本/性能，不是所有榜单通吃。
更关键的是，Codex正在从编程工具变成能操作浏览器、文档、表格和应用的工作代理底座。

内容导图 Mind Map

入口之争

Codex重于模型升级

GPT 5.5定位

强在长程执行

跑分指向

代理任务优先

成本约束

高端任务重算ROI

Codex扩边界

从代码走向工作流

能力外溢

接管浏览器与文档

入口锁定

上下文更难迁移

竞争压力

低价模型压缩溢价

Gemini对照

类似能力成本更低

DeepSeek刺激

开源低价拉低预期

采用策略

先试低风险流程

适合先动

审查测试文档清洗

暂缓托管

高权限动作需保留

后续变量

审计与价格决定节奏

API延后

企业集成变慢

权限验证

审计回滚待落地

OpenAI发布GPT-5.5。按现有材料，它的主线不是“全面碾压”，而是长程任务、电脑使用和token效率。API价格据报约为每百万输入/输出token 5/30美元，Pro约30/180美元；API访问因安全措施延后，不是立刻全面开放。

更大的动作在Codex。它新增浏览器控制、Sheets/Slides、Docs/PDF、系统级听写和auto-review。这个边界已经越过“帮程序员写代码”。我的判断很直接：GPT-5.5是模型升级，Codex才是OpenAI这次更想占住的工作入口。

GPT-5.5强在执行，不该只看跑分

GPT-5.5的几个数字可以看，但别看成“全维度胜利”。Terminal-Bench 2.0为82.7%，SWE-Bench Pro为58.6%，OSWorld-Verified为78.7%。这些指标更像在指向代理执行能力：跑终端、改代码、用电脑、持续完成任务。

变量	目前看到的变化	对产品和采购的影响
GPT-5.5能力	长程执行、电脑使用、token效率提升	更适合跑连续任务，而不是只做问答
关键基准	Terminal-Bench 2.0 82.7%；SWE-Bench Pro 58.6%；OSWorld-Verified 78.7%	说明代理场景被放到更高优先级
API价格	GPT-5.5约5/30美元；Pro约30/180美元	高端任务要重新算ROI，不能只看效果
API状态	因安全措施延后访问	企业集成节奏会被拉长
价格对照	Gemini 3.1 Pro Preview成本更低；DeepSeek-V4 Preview低价、开源、1M context	OpenAI的压力不只来自能力，也来自成本

Artificial Analysis的判断比较贴近采购现场：GPT-5.5 medium以约四分之一成本追平Claude Opus 4.7 max的智能指数。但Gemini 3.1 Pro Preview成本更低，约900美元即可达到类似水平。

所以OpenAI这次讲的不是“我最便宜”。它更像在说：我贵，但单位智能和执行能力更能解释这笔钱。

这里要留一个口子。材料没有证明GPT-5.5在所有coding对比里都稳压对手。模型厂商都会展示自己最顺手的曲线，采购方不能只看发布图。真正要测的是自己的任务：仓库规模、工具链、权限、失败回滚、人工审查成本。

Codex正在从代码工具变成工作代理底座

Codex的新能力很直白：控制浏览器，处理Sheets/Slides，读写Docs/PDF，系统级听写，auto-review。它开始碰网页、文件、办公流和审查流。

这已经不是“补全代码”。它更像一个能替你打开软件、走流程、改材料、提交结果的工作代理。

对AI产品经理和开发团队，问题会变成两句：任务在哪里跑完？谁控制任务的上下文？

如果Codex能接住代码审查、QA、研究循环、表格整理和演示文稿生成，团队就会把更多工作流放进OpenAI的界面和权限体系。模型调用只是账单。工作流迁移才是锁定。

这套戏法并不新。微软Office当年厉害，不只是Word和Excel好用，还因为它定义了企业文件格式和协作习惯。铁路公司也不只卖车票，还控制站点、时刻表和货运线路。

“天下熙熙，皆为利来。”落到今天，这个“利”就是默认入口、任务上下文和企业工作流。模型可以替换，默认路径更难换。

DeepSeek-V4 Preview给了一个刺眼对照：MIT开源、1M context，V4-Flash价格约0.14/0.28美元每百万输入/输出token，V4-Pro约1.74/3.48美元。即便吞吐和高端算力仍有限，它也足够提醒闭源巨头：参数优势会被追，价格优势会被打，入口优势才更难拆。

谁该动，谁该等

开发团队可以先动，但别急着全迁。适合先试的是低风险、高重复、可回滚的任务：代码审查辅助、测试生成、文档更新、表格清洗、网页资料整理。

不适合一上来交给代理的是高权限动作：生产环境变更、财务审批、客户数据批量处理、不可逆提交。一个能点击、编辑、提交的代理，已经不是搜索框。它接近半个员工。

企业采购更应该延后大规模绑定。不是因为GPT-5.5不强，而是关键条件还没完全落地：API访问延后，安全措施仍在补，Codex的权限模型、审计日志、回滚机制还需要被实际验证。

最现实的动作是三步：

用自家任务集测GPT-5.5，不只看公开榜单。
把Codex先放进可审计、可撤销的流程。
同时保留Gemini、DeepSeek这类低价路线做成本压测。

接下来该盯的不是一句“模型又强了”。该盯四个变量：API安全延后多久，Codex权限模型能否过企业审计，低价模型会不会继续压缩OpenAI溢价，开发者是否真的把日常工作流迁进去。

模型战没有结束。只是最值钱的位置，正在从排行榜挪到工作台。

锐评 Commentary

GPT-5.5赢的是一段任务，Codex想赢的是整条工作流。省下时间的同时，用户也交出了更多手。

OpenAICodexGPT-5.5AI工作代理长程任务执行电脑使用能力工作流控制权token效率DeepSeekGemini