Google 端出 TPU v8,又把 Gemini Enterprise Agent Platform 推到前台。另一边,Qwen3.6-27B、OpenAI Privacy Filter、小米 MiMo-V2.5 也在密集出现。表面看,这还是一轮模型、算力和产品发布。

但高层真正反复讨论的,已经换了题目:不是要不要多用模型,而是 token 怎么花才不浪费。硬件更强,模型更便宜,agent 链条更长,企业反而更需要克制并发、控制输出、保留审计痕迹。钱花得出去,不等于交付就更好。

Google 释放的信号,是垂直整合

Google 这次更重要的,不是单看 TPU v8 的数字,也不是某个 benchmark。更关键的是,它把基础设施、模型、agent 平台和治理能力一起往企业面前摆。

Gemini Enterprise Agent Platform 里有 Agent Studio、Model Garden、治理和优化能力,再叠上 Workspace Intelligence、安全 agent、统一 embedding,方向已经很清楚:Google 不只想卖模型 API,它想定义企业怎么用模型。

原因也不复杂。企业最贵的部分,开始从单次推理,转向代理编排、权限审批、日志追踪、评测回放和安全清洗。模型本身还是重要,但已经不是全部。

线索这次动作说明什么对企业的直接含义
Google TPU v8强化训练与推理底座agent 规模化成本还会继续下探并发会更容易开,但浪费也会更快放大
Gemini Enterprise Agent Platform把构建、部署、治理、优化放到一套平台基础设施、模型、代理、治理正在垂直整合CTO 更容易统一采购,也更容易被平台锁住流程
OpenAI Privacy Filter提供面向脱敏的小模型工具行业不只卷最强模型,也在卷可控工具适合先做分层流水线,而不是每步都上大模型
Qwen3.6-27B / 小米 MiMo-V2.5更便宜、可控、可嵌入流程的模型选择增多企业可拼装空间变大采购会从“买一个最强”转向“按环节配模型”

这背后不是技术浪漫,而是采购现实。平台越整,企业越容易上手;平台越整,定义权也越集中。早期云计算扩张也是这样,先卖弹性,后卖治理,最后把成本控制和权限设计一起收回平台手里。今天轮到 token 和 agent 了,但不完全一样:这次多了输出质量和责任追踪,管理难度更高。

“tokenmaxxing”争的不是多或少,而是怎么花

眼下流行的说法是 tokenmaxxing。更具体一点,是 Mikhail Parakhin 提到的 tasteful tokenmaxxing:别把 token 粗暴撒在大规模并发调用上,而是把更多预算放进更长的串行 autoresearch、审查、修订和验证循环。

这套思路能流行,不是因为大家突然爱上节制,而是因为企业已经吃到教训了。便宜 token 如果没有评测、审查和回放,很快就会变成便宜错误。天下熙熙,皆为利来。企业真正在意的,从来不是调用量曲线漂不漂亮,而是返工有没有下降,交付有没有更稳。

Dex Horthy 回撤自己早前偏向 vibe coding 的立场,转而强调“请认真读代码”,也能放进同一条线索里看:模型开始进入生产环境后,随手生成的快感要给工程纪律让路。试玩时追求速度。上线后先问责任。

但我不太买账一种偷懒说法:仿佛从此以后“少并发、多深度”就是通用解。没那么整齐。任务类型、模型能力、工程质量门槛,都会改写最优策略。

客服分流、内容清洗、PII 脱敏,本来就适合先用便宜小模型跑一层。复杂软件工程、长任务代理、需要强审计的企业流程,才更依赖深度循环和严格评测。OpenAI 放出 Privacy Filter 这种偏工具型的小模型,本身就在说明一件事:企业需要的是分层流水线,不是让大模型包打天下。

换句话说,tokenmaxxing 现在更像管理层的一种取向。它提醒企业少迷信“堆调用量”。但它还不是被所有场景验证完的行业定论。

对 CTO、工程经理和长期观察者,这分别意味着什么

对 CTO 和工程负责人,最现实的变化是预算表要改写。过去很多团队把 AI 预算花成了三件事:更多 seat、更多 API 调用、更多 demo。现在这套算法越来越难交差,因为日志里全是冗余调用,代码 review 压力在涨,团队也越来越难证明 token 增长真的换来了更好的交付。

他们接下来大概率会做几件事:延后全平台铺开,先压缩高噪声 agent 试点;把采购从“选最强模型”改成“给每个环节配合适模型”;要求平台默认提供 traces、evals、审批流和权限控制。没有这些,规模化基本只是把试错放大。

对技术经理,问题更具体。团队会开始收紧“先生成再说”的开发流程,补 review、回放和验收标准。KPI 也可能变,从调用量、采纳率,慢慢转向返工率、通过率、人工接管率。如果考核不变,再漂亮的 token 策略也会被冲成新的数字游戏。

对长期跟踪模型产品化与企业软件的人,这波信号也很明确:行业竞争正在分成两层。一层还在比模型能力和算力底座。另一层已经转向谁能把模型塞进真实组织流程,并让它可控、可审、可追责。后者更慢,也更难,但更接近企业软件真正收钱的地方。

我会继续盯四个变量:

  • 平台是不是把 traces、evals、审批流做成默认能力,而不是演示功能
  • 企业是否开始把小模型当基础设施零件,而不是大模型的廉价替补
  • 团队 KPI 会不会从调用量转向质量和接管成本
  • agent 的成功案例,究竟来自更强模型,还是来自更窄流程与更严治理

如果后两项不动,tokenmaxxing 很容易沦为新口号。问题不在 token 贵不贵,而在组织有没有能力把便宜算力变成可交付的结果。

企业 AI 走到这一步,已经不太像试玩了。花钱买模型不难,难的是让每一笔 token 支出都能被解释、被审计、被优化。治大国若烹小鲜,治企业 AI 也差不多:火开太猛,最先糊掉的往往不是模型,是流程。