OpenAI 发布 GPT-5.5,并开始向 ChatGPT 与 Codex 用户推出。

可用范围很清楚:ChatGPT 与 Codex 面向 Plus、Pro、Business、Enterprise;GPT-5.5 Pro 面向 Pro、Business、Enterprise;API 稍后开放。官方给出的理由是,大规模服务还需要额外安全和防护准备。

这次最值得盯的,不是“更聪明”这句老话。OpenAI 把叙事重心放到了 agentic coding、电脑使用、文档/表格/幻灯片、科研分析。它想卖的不是一个更会聊天的框,而是一个能跨工具干活的电脑劳动力。

GPT-5.5 强在哪:编码、电脑操作和知识工作

官方给了几个性能锚点:Terminal-Bench 2.0 达到 82.7%,GDPval 84.9%,OSWorld-Verified 78.7%。FrontierMath、CyberGym 等多项测试也高于 GPT-5.4。

效率也被放到了台前。OpenAI 称,GPT-5.5 在真实服务中的 per-token 延迟与 GPT-5.4 相当,Codex 任务使用更少 token。Artificial Analysis 称,它的编码智能达到前沿水平,成本约为竞争性前沿编码模型的一半。

这些数字不能直接当成独立验证结论。官方 benchmark 有参考价值,但真实工作流会更脏:需求不完整、权限受限、代码库混乱、表格口径不一致。模型在测试里赢一局,不等于在公司系统里稳定接活。

变量已知信息现实影响该怎么判断
上线范围Plus、Pro、Business、Enterprise 可用;Pro 版面向 Pro、Business、Enterprise个人高频用户和企业试点先受影响先看体验,不宜直接迁移核心流程
API暂缓开放第三方开发者和自动化平台扩散变慢短期别喊生态洗牌
编码能力Terminal-Bench 2.0 为 82.7%,多项编码/网络安全测试高于 GPT-5.4Codex 用户会先感到变化适合试重构、调试、测试生成
电脑操作OSWorld-Verified 为 78.7%电脑代理叙事更可信关键看能否少中断、少误操作
知识工作GDPval 为 84.9%文档、表格、PPT、分析任务会被重新估价企业要看权限、审计和责任边界

对开发者工具团队,动作很具体:不要只测“能不能写函数”。要测它能不能读项目、改多文件、跑测试、修失败、给出可审查 diff。

对企业采购团队,也别急着签大单。更合理的做法是选 2 到 3 个低风险流程试点,比如周报生成、表格清洗、内部知识检索、测试用例补全。能省多少人时,出错后谁负责,都要写进验收表。

API 暂缓,是这次发布的硬刹车

API 没开,不是一个小注释。它决定了 GPT-5.5 的影响先停在 ChatGPT 和 Codex 里,而不是立刻灌进所有 SaaS、开发者工具和自动化平台。

OpenAI 说发布前做了安全框架评估、红队、网络安全与生物能力测试,也收集了近 200 个早期合作伙伴反馈。API 暂缓,说明它自己也知道:聊天界面里的可控风险,和开放接口后的规模化风险不是一回事。

这会改变短期节奏。

开发者如果想基于 GPT-5.5 做产品,现在只能观望 API 时间、价格、限流和安全策略。企业如果已经在用 Codex 或 ChatGPT,可以先做内部评估;如果要把它嵌入自家系统,就得等接口和合规条款落地。

科研叙事也要降一档看。Ramsey 证明、基因表达分析、BixBench、GeneBench 等案例,说明 GPT-5.5 在特定 harness 和验证条件下能推进复杂任务。可这不等于通用科研突破。科学要复现、审稿、实验和同行拆台,不是生成一份漂亮报告就结账。

这也是我对这次发布最不愿买账的地方:OpenAI 展示的是能力上限,用户真正买单的是稳定下限。企业不会为一次惊艳付长期预算,只会为可重复交付付钱。

我的判断:模型竞争正在从答题,转向接管工作流

过去的大模型像一个反应很快的顾问。你问一句,它答一句。GPT-5.5 的方向更像工程助理、研究助理、办公室助理:能规划步骤,调用工具,检查结果,遇到问题继续推进。

分水岭就在这里。会回答,只是入口;能持续执行,才是生产力。

这对开发者最直接。实现、重构、调试、测试验证,都会被压价。不是程序员立刻被替代,而是低质量重复执行不再值钱。更值钱的是任务拆解、架构判断、代码审查、上线责任。

企业知识工作者也会被卷进去。财务审表、市场周报、运营分析、PPT 和文档生成,都会先进入“人机混编”状态。一个人带模型干三个人的杂活,听起来像效率提升,落到组织里就是岗位边界重写。

这里可以借一句老话:“天下熙熙,皆为利来。”大模型厂商争的不是聊天框里的掌声,而是企业电脑劳动的入口。谁能嵌进编码、文档、表格、邮件、会议和数据分析,谁就能拿到预算、数据和使用习惯。

这和当年的 Office、浏览器、云服务有点像,但不完全一样。Office 占住的是文件格式和办公习惯,云服务占住的是算力和部署路径。GPT-5.5 这类模型想占的是任务流:从“我要做什么”到“电脑替我做完”。

这条路很肥,也很难。

真正要观察的不是发布当天的跑分,而是四个硬变量:API 什么时候开;价格和限流怎么定;企业任务成功率能不能稳定;出错后的责任、审计和权限怎么处理。

如果这四个变量撑住,GPT-5.5 就不只是模型升级。如果撑不住,它会变成又一个演示视频很好看、真实办公室里很磨人的聪明工具。

OpenAI 这次少见地把牌打得很实:不再装作聊天就是全部。问题也因此更尖锐了。模型能说会道已经不稀奇,能不能在别人的电脑里稳稳干活,才是下一轮竞争的账本。