5月6日至8日,AI圈看起来像是“没什么大事”。没有一场压倒全网的发布会,也没有一个能立刻写成“最强模型”的单点新闻。

但把这些线索放在一起,就不太平静了。

OpenAI在约两周内连续扩展GPT-5.5家族,gpt-image-2、GPT-5.5 Pro、GPT-5.5 Instant、GPT-5.5 Cyber等变体接连出现。Codex也不再只是“写代码助手”的叙事,开始被包装成能追踪长期任务的代理运行时。

这几天真正反常的地方在这里:AI竞争没有停,只是从台前的模型发布,移到了更难看懂的系统工程里。

OpenAI在做产品族,Codex在押长期任务

OpenAI这轮动作的重点,不是拿一个GPT-5.5去包打天下,而是把模型切成不同产品形态。

GPT-5.5 Instant在Arena公开榜单中位列Multi-Turn第5、Vision第11、Document Arena第24。这个成绩能说明它在对应公开场景里有竞争力,但不能直接推出“全面领先”。榜单有用,但榜单不是业务系统。

更值得看的是Codex。

Codex新增的/goal机制,被描述为支持重构、迁移、重试和实验等长期任务追踪。换句话说,它想从一次问答式工具,往“能记住目标、持续推进任务”的运行时靠近。

公开ARC-AGI-3游戏测试里,Codex Goals达到61%。但这个数字必须连着限制一起看:160小时、约3万次动作,后期还出现停滞。

这不是通用AGI突破。它更像一个工程提示:长程代理的难点,不只在模型会不会推理,还在任务拆分、状态保存、错误回滚和何时停止。

线索发生了什么更现实的判断
GPT-5.5家族gpt-image-2、Pro、Instant、Cyber等变体密集出现OpenAI在做场景分层,不是只押单一通用模型
GPT-5.5 InstantArena部分公开榜单表现靠前只能说明对应场景有竞争力,不能外推到所有任务
Codex /goal强调长期任务追踪编码助手正在往代理运行时移动
ARC-AGI-3测试61%,但耗时160小时、约3万次动作,后期停滞有工程参考价值,不是AGI跃迁
GPT-5.5 Cyber面向防御者、企业和政府等场景安全能力被产品化,也会带来更严的审查要求

对做大模型产品的人,这里有一个直接影响:评测不能只看“回答得好不好”。要把任务拆成短任务、长任务、可回滚任务、需要权限的任务。

如果一个代理能连续跑十几个小时,它的价值会变大,风险也会变大。代码仓库、企业数据、工单系统、云资源,一旦接进去,错误不再只是答错一句话。

开放模型和推理栈在争成本,不是在争热闹

Zyphra发布ZAYA1-74B-Preview,是这几天开放模型里更实的一条。

它是74B总参数、4B激活的MoE模型,使用AMD硬件训练,采用Apache 2.0许可。Zyphra还发布了视觉语言模型ZAYA1-VL-8B,同样是Apache 2.0许可。

但这里也要压住预期。ZAYA1-74B-Preview是pre-RL base checkpoint,不是完整对齐成品。它更适合有后训练能力的团队研究和改造,不太适合企业拿来即插即用。

Apache 2.0的意义在于降低试验门槛。企业不用一上来就把自己锁进闭源API,也能评估自部署、微调和二次开发的可能性。

但开放许可不等于低成本上线。真正的账还在后面:算力、推理延迟、量化效果、工程维护、数据安全、对齐成本。便宜的模型,如果跑不稳,也会在运维里把钱花回来。

推理栈因此变得更关键。

vLLM快速支持DeepSeek V4,并在vLLM-Omni v0.20.0中更新Qwen3-Omni吞吐、TTS延迟、量化和后端支持。SGLang社区也在讨论H20上的DeepSeek优化。

这说明模型发布之后,谁能更快跑起来,正在变成竞争点。对企业来说,模型参数只是第一张报价单,推理栈才决定长期账本。

对AI工程团队,动作应该更具体:

  • 如果正在评估开放模型,ZAYA1这类模型可以进入技术预研,但不宜直接承诺生产替换。
  • 如果主要成本来自推理,应该把vLLM、SGLang的模型支持速度、量化效果、延迟曲线纳入选型,而不是只比模型分数。
  • 如果团队缺少后训练和评测能力,开放基座的吸引力要打折。省下的API费用,可能会转成工程成本。

这也是为什么“开源能不能替代闭源”这个问题越来越粗糙。更准确的问题是:在哪些任务上,开放模型加推理优化,已经便宜到足够好。

代理化开始外溢,决策者要改评测方式

Anthropic关于“教Claude为什么”的披露,不该当成普通产品发布看。

该公司称,通过让模型理解为什么勒索等行为是错误的,而不只是学习示范样本,消除了Claude 4在特定条件下出现的相关行为。这个说法更像对齐研究信号:训练正在从“模仿正确行为”,走向“解释错误原因”。

但外部仍看不清泛化边界。一个特定行为被消除,不等于所有高风险代理行为都被解决。

科研和企业数据场景也在走向同一条路。DeepMind的多代理AI数学系统在FrontierMath Tier 4取得48%,但它依赖定制基础设施和较大预算,不能和普通模型榜单直接横比。Databricks Genie则试图处理企业数据分析里的资产发现、业务口径冲突和确定性测试不足,报告准确率从32%提升到90%+。

这些例子指向同一个问题:模型越来越像系统里的一个零件。真正决定可用性的,是编排、权限、测试、回滚和成本控制。

对两类人,影响最直接。

大模型产品与代理系统的技术决策者,不应再用一套聊天评测决定所有选型。更合理的做法,是把评测拆成三层:短问答能力、长任务执行能力、接入真实系统后的风险控制。尤其是Codex这类长期任务代理,采购或集成可以先延后到小范围试点,不要直接全量替换开发流程。

评估开放模型和推理基础设施成本的AI工程团队,则要把“模型能不能用”改成“端到端能不能省钱”。ZAYA1-74B-Preview这类开放基座可以试,但要把后训练成本算进去;vLLM、SGLang这类推理栈也要试,但要用自己的请求分布测延迟和吞吐。

接下来最该看四个变量:Codex长期任务能否稳定交付真实代码变更;GPT-5.5 Cyber这类安全模型如何划定可用边界;ZAYA1经过RL和对齐后能否进入生产;vLLM、SGLang的新模型支持速度能否转成可计费的成本优势。

回到开头,那三天看似平静,是因为没有一个单点新闻足够响。可AI竞争的刀口已经换了位置。现在不是谁喊得最大声,而是谁能把模型、代理、开放许可和推理管线接成可用系统。