AI 圈有一种很迷惑的日子:没有大模型发布,没有发布会金句,也没有 CEO 上台宣布“下一代平台”。

但这类安静日子,反而更容易露出真东西。

这期 AI News 的标题像是“not much happened today”。可把碎片拼起来看,事情并不少:研究级评测在加难,训练和推理基础设施在抠成本,Agent 周边开始长出运行时和安全问题。

我的判断很简单:AI 行业的胜负手,正在从台前模型,移到台下工程账本。

评测变难:旧榜单不够用了

几条信息先压成一张速读卡。

方向这次出现的变化更像什么信号
数学评测Soohak 新增 439 道研究级数学题,由 64 位数学家编写,包括 38 位 faculty奥赛题和常规题库筛不动前沿模型了
医疗评测Medmarks v1.0 扩到 30 个 benchmark、61 个模型医疗 AI 不能再靠单一榜单讲故事
科学 Agent报告称 DeepMind AI Co-Mathematician 在 FrontierMath Tier 4 达到 48%研究型任务开始考系统协作,而不只是单次答题
多 Agent 拆解据称 Gemini 3.1 Pro 经多 Agent 拆解后,CritPt 从 17.7% 升到 31.4%工作流设计开始影响评测上限

这里要先降温。

这些数字不少来自发布方或社区转述。GPT-5.5、Opus 4.7、Gemini 3.1 Pro 这类型号,也不适合写成完全公开、完全可核验的正式产品事实。

更不能拿一个 benchmark 成绩,直接宣布通用智能跃迁。

但有一件事已经很清楚:旧评测正在饱和。

过去两年,行业喜欢用榜单高分证明“模型又会了”。现在麻烦来了。大家都高分时,榜单就不再提供区分度。真正有价值的动作,变成三件事:题更难,场景更真,过程更可追踪。

这和考试制度很像。题太简单,筛不出人;题太偏,筛不出能力。AI 评测也在这条窄路上走。

对 AI 产品负责人来说,这意味着采购和选型要慢半拍。别只看总分。要看模型在你的任务链路里怎么失败:是检索错、推理断、工具调用错,还是长上下文里丢状态。

总分好看,只能说明它适合上榜。能不能进生产,要看失败模式。

成本变细:模型能力不再单独决定胜负

另一组信号来自底层。

SOAP/Muon 类优化器在压训练步数。Lean4-to-TileLang 超优化器据称能自动发现 FlashAttention2、FlashNorm、split-k matmul 等 kernel,在 A100 上给出约 1.8× geomean 加速。Perplexity 披露 GB200 NVL72 serving 大 MoE 的一些延迟优势,比如 NVLS all-reduce 从 H200 的 586.1µs 降到 GB200 的 313.3µs。

这些数字看起来都在说“更快”。但它们不是同一种快。

优化位置解决的问题不能直接推出什么
训练优化器减少训练步数或提升收敛效率不能等同于完整训练成本按比例下降
Kernel / 编译优化提高局部算子效率不能覆盖数据、调度、通信和工程复杂度
Serving 硬件改善大 MoE 推理延迟或通信不能自动变成所有模型、所有场景都更便宜
小模型检索用专用模型优化链路局部效果不能替代通用模型的复杂推理能力

这张账必须分开算。

吞吐、延迟、部署成本、可用性,是四件事。任何把它们加总成“AI 成本线性下降”的说法,都太粗。

但方向不含糊:模型能力已经不能单独决定胜负。训练、推理、缓存、调度、checkpoint、GPU 利用率,开始接管叙事。

小模型也没被大模型吃掉。LightOn 的 Agent-ModernColBERT 只有 149M 参数,却在检索链路上继续提升。这个信号很实在:很多环节不需要巨大的通用模型硬扛。

检索、排序、查询改写、工具调用,本来就应该有专用零件。

这对工程团队的影响很直接。接下来做 AI 应用,别急着把所有问题都丢给最大模型。更现实的路线是拆账:哪一步必须用强推理,哪一步能用小模型,哪一步该交给检索或规则,哪一步应该缓存。

“天下熙熙,皆为利来。”放到 AI 基础设施里,就是算力、延迟和毛利。模型厂讲能力,客户最后付的是账单。

Agent 进生产,先补运行时,再补安全边界

Agent 这边,真正有意思的不是 demo。

是周边基础设施开始长出来。

Stanford 的 Shepherd 把 Agent 执行做得像 Git:任务、effects、scope、trace、精确 replay、branch、rollback,还用 Lean 做形式化保证。OpenAI 提到 Symphony,让每个 open task 都能跑一个 Codex agent。LangGraph 的 DeltaChannel snapshots,则在解决长任务状态管理,不再每次粗暴保存全量状态。

这些东西不性感,但很关键。

Agent 真要进生产,难点不在“会不会调用工具”。难点在出错后怎么复现,长任务怎么暂停,状态怎么回滚,多分支怎么比较,人类怎么监督。

没有这些,Agent 只是一个话很多的实习生。有了这些,它才像一个能纳入工程体系的执行单元。

风险也跟着来了。

Mini Shai-Hulud 供应链攻击就是警钟。报道称它不只命中 TanStack,还波及 OpenSearch、Mistral AI、Guardrails AI、UiPath 等 npm 和 PyPI 生态里的 AI 开发工具。更麻烦的是持久化方式:据称会挂进 Claude Code 的 .claude/settings.json 和 VS Code 的 .vscode/tasks.json

包删了,配置还在。未来某个工具事件,仍可能重新触发。

这就是 AI 工具链的影子基础设施。平时看不见,出事时才发现它一直有权限、有入口、有记忆。

对 AI 工程负责人来说,接下来最该做的不是再收藏十个 Agent 框架,而是把四件事列进检查单:

  • 依赖包能不能锁版本、审来源、做最小权限;
  • CI/CD 有没有把 Agent 工具和生产凭证隔开;
  • workspace 配置能不能被扫描和回滚;
  • 本地 secrets、IDE task、Claude Code 配置有没有进入安全治理。

这会让开发慢一点。没办法。自动化越深,权限越大;权限越大,攻击路径越值钱。

历史上每一轮开发效率工具都会经历这一步。包管理器、浏览器插件、CI 脚本、云端 notebook,都从“方便”走到“治理”。AI 开发工具也不会例外。不同的是,这次工具更会读、更会写、更会替你执行。

这期看似平静的 AI News,真正发生的是提问方式变了。

过去问:谁的模型最大?

现在要问:谁的评测更硬,成本更低,运行时更稳,工作流更可控,出事后还能查得清?

接下来我会盯四个变量:研究级 benchmark 能不能复现;训练和 serving 提效能不能落到真实账单;Agent 运行时能不能进入主流开发栈;供应链攻击会不会从包投毒,继续钻进 IDE、配置和本地自动化脚本。

这些变量,比一次漂亮发布会更能说明 AI 行业往哪里走。