OpenAI发布GPT-5.5。按现有材料,它的主线不是“全面碾压”,而是长程任务、电脑使用和token效率。API价格据报约为每百万输入/输出token 5/30美元,Pro约30/180美元;API访问因安全措施延后,不是立刻全面开放。
更大的动作在Codex。它新增浏览器控制、Sheets/Slides、Docs/PDF、系统级听写和auto-review。这个边界已经越过“帮程序员写代码”。我的判断很直接:GPT-5.5是模型升级,Codex才是OpenAI这次更想占住的工作入口。
GPT-5.5强在执行,不该只看跑分
GPT-5.5的几个数字可以看,但别看成“全维度胜利”。Terminal-Bench 2.0为82.7%,SWE-Bench Pro为58.6%,OSWorld-Verified为78.7%。这些指标更像在指向代理执行能力:跑终端、改代码、用电脑、持续完成任务。
| 变量 | 目前看到的变化 | 对产品和采购的影响 |
|---|---|---|
| GPT-5.5能力 | 长程执行、电脑使用、token效率提升 | 更适合跑连续任务,而不是只做问答 |
| 关键基准 | Terminal-Bench 2.0 82.7%;SWE-Bench Pro 58.6%;OSWorld-Verified 78.7% | 说明代理场景被放到更高优先级 |
| API价格 | GPT-5.5约5/30美元;Pro约30/180美元 | 高端任务要重新算ROI,不能只看效果 |
| API状态 | 因安全措施延后访问 | 企业集成节奏会被拉长 |
| 价格对照 | Gemini 3.1 Pro Preview成本更低;DeepSeek-V4 Preview低价、开源、1M context | OpenAI的压力不只来自能力,也来自成本 |
Artificial Analysis的判断比较贴近采购现场:GPT-5.5 medium以约四分之一成本追平Claude Opus 4.7 max的智能指数。但Gemini 3.1 Pro Preview成本更低,约900美元即可达到类似水平。
所以OpenAI这次讲的不是“我最便宜”。它更像在说:我贵,但单位智能和执行能力更能解释这笔钱。
这里要留一个口子。材料没有证明GPT-5.5在所有coding对比里都稳压对手。模型厂商都会展示自己最顺手的曲线,采购方不能只看发布图。真正要测的是自己的任务:仓库规模、工具链、权限、失败回滚、人工审查成本。
Codex正在从代码工具变成工作代理底座
Codex的新能力很直白:控制浏览器,处理Sheets/Slides,读写Docs/PDF,系统级听写,auto-review。它开始碰网页、文件、办公流和审查流。
这已经不是“补全代码”。它更像一个能替你打开软件、走流程、改材料、提交结果的工作代理。
对AI产品经理和开发团队,问题会变成两句:任务在哪里跑完?谁控制任务的上下文?
如果Codex能接住代码审查、QA、研究循环、表格整理和演示文稿生成,团队就会把更多工作流放进OpenAI的界面和权限体系。模型调用只是账单。工作流迁移才是锁定。
这套戏法并不新。微软Office当年厉害,不只是Word和Excel好用,还因为它定义了企业文件格式和协作习惯。铁路公司也不只卖车票,还控制站点、时刻表和货运线路。
“天下熙熙,皆为利来。”落到今天,这个“利”就是默认入口、任务上下文和企业工作流。模型可以替换,默认路径更难换。
DeepSeek-V4 Preview给了一个刺眼对照:MIT开源、1M context,V4-Flash价格约0.14/0.28美元每百万输入/输出token,V4-Pro约1.74/3.48美元。即便吞吐和高端算力仍有限,它也足够提醒闭源巨头:参数优势会被追,价格优势会被打,入口优势才更难拆。
谁该动,谁该等
开发团队可以先动,但别急着全迁。适合先试的是低风险、高重复、可回滚的任务:代码审查辅助、测试生成、文档更新、表格清洗、网页资料整理。
不适合一上来交给代理的是高权限动作:生产环境变更、财务审批、客户数据批量处理、不可逆提交。一个能点击、编辑、提交的代理,已经不是搜索框。它接近半个员工。
企业采购更应该延后大规模绑定。不是因为GPT-5.5不强,而是关键条件还没完全落地:API访问延后,安全措施仍在补,Codex的权限模型、审计日志、回滚机制还需要被实际验证。
最现实的动作是三步:
- 用自家任务集测GPT-5.5,不只看公开榜单。
- 把Codex先放进可审计、可撤销的流程。
- 同时保留Gemini、DeepSeek这类低价路线做成本压测。
接下来该盯的不是一句“模型又强了”。该盯四个变量:API安全延后多久,Codex权限模型能否过企业审计,低价模型会不会继续压缩OpenAI溢价,开发者是否真的把日常工作流迁进去。
模型战没有结束。只是最值钱的位置,正在从排行榜挪到工作台。
