AI 公司开始算账：便宜模型正在改写推理成本

核心摘要 Summary

AI 企业开始重新评估小模型和廉价模型，不再默认所有任务都交给最强前沿模型。
Brian Armstrong 预测，未来 12-18 个月内，80% 工作负载可能迁移到便宜 99% 的模型上；这只是判断，不是行业统计。
真正受压的是模型选型逻辑：企业要从“买最强”转向“买合适”，OpenAI、Anthropic 等前沿实验室的收入叙事也会被成本现实追问。

一件很反常的事正在发生：AI 行业烧了这么多年钱，终于开始认真问一句朴素的话——这活儿，非得用最贵的模型干吗？

Coinbase 联合创始人 Brian Armstrong 最近给了一个激进判断：未来 12-18 个月内，80% 的 AI 工作负载可能跑到便宜 99% 的模型上，只有 20% 留给最强模型。注意，这不是已经发生的行业统计，只是预测。但它戳中了 AI 商业化最疼的地方：补贴变弱，token 账单变厚，企业开始算细账。

小模型重新上桌，因为账单开始疼了

过去几年，很多团队默认用前沿大模型。

理由也简单：能力强，省心，出错少。尤其在产品早期，开发团队宁可多花钱，也不想把质量风险扛到自己身上。

现在变量变了。AI 应用进入常态化使用，调用量上来，推理成本就不再是实验预算，而是经营成本。

问题	过去的默认做法	现在的变化	受影响对象
模型选择	默认调用最强模型	按任务拆分，能省则省	AI 产品团队、工程负责人
成本结构	token 账单被增长掩盖	调用量越大，成本越刺眼	企业采购、财务团队
模型叙事	前沿模型是默认入口	前沿模型变成高价值任务选项	OpenAI、Anthropic 等实验室
技术边界	强模型兜底一切	高复杂任务仍需要强模型	法律、金融、代码等严肃场景

这件事重要，不是因为小模型突然“赢了”。

更准确地说，是企业第一次有足够强的动力，把任务从“一个模型包打天下”改成“分层调度”。

采购负责人会更谨慎。续约时不只问模型能力，还会问每类任务的 token 成本、命中率、失败率。AI 产品团队也会被迫补课：哪些请求必须上旗舰模型，哪些请求用便宜模型就够。

这才是真变化。

Harvey 的信号：问题在任务分配，不在单一模型崇拜

现有证据里，最有参考价值的是 Harvey 的测试。

这家法律 AI 公司和 Fireworks AI 做了一次组合实验：复杂任务交给 Claude Opus，其余任务交给 Fireworks 提供的 GLM 5.1。结果是，推理成本降低 3 倍，质量没有下降。

这个案例不能被夸大。

它只是法律 AI 场景中的一个早期信号。现有信息不足以证明所有行业、所有任务都能照搬。样本怎么选，质量怎么评估，失败案例怎么处理，这些细节都会影响结论。

但它至少说明一件事：很多 AI 成本问题，未必是模型不够强，而是任务分配太粗。

以前大家习惯一把梭。能用旗舰模型，就别冒险。

现在账单来了，粗放就变贵了。

路线	好处	代价	适合谁
全部用前沿大模型	质量更稳，接入简单	成本高，冗余多	早期验证、低调用量产品
全部用便宜模型	成本低	复杂任务质量风险高	低风险、标准化任务
模型路由	成本和质量可平衡	需要评估体系和工程投入	调用量大、质量要求高的企业

我更相信第三条路。

不是因为它听起来先进，而是因为它像正常生意。铁路、电力、云计算都走过类似过程：早期拼极限能力，后期拼单位成本和调度效率。不完全一样，但商业逻辑相近。基础设施越成熟，客户越不愿意为冗余付费。

“天下熙熙，皆为利来。”放在 AI 里很直白：客户不是来膜拜模型的，客户是来买结果的。

分水岭不是开源闭源，而是“最强”让位给“够用”

这件事常被讲成“美国闭源模型 vs 中国开源模型”。这个说法太窄。

真正的对比是前沿大模型和便宜模型，是最强模型和够用模型。企业可以换到开源模型，也可以换到同一家公司的轻量版本。省钱的关键不是立场，而是别拿大炮打蚊子。

这会给 OpenAI、Anthropic 这类前沿模型实验室带来一种更难受的压力。

不是说它们的收入已经恶化。现有事实支撑不了这个判断。高复杂任务仍会需要最强模型，前沿能力也仍然决定行业上限。

问题在叙事。

如果 Armstrong 的判断接近现实，大量工作负载会从旗舰模型迁出去。那市场就会追问一个更具体的问题：你训练最贵模型的成本，能不能从足够多的高价值任务里赚回来？

这对 IPO 故事尤其关键。

过去的故事是：模型越强，调用越多，推理增长越大。现在要补一条：调用增长不等于旗舰模型收入增长。企业会把任务拆开，把贵模型留给最难的 20%。剩下 80%，谁便宜、谁稳定、谁好接入，谁就有机会。

对企业客户来说，接下来该看的不是榜单第一名是谁，而是三件事：

路由能力.系统能不能判断任务难度，并自动选择模型。
质量评估.降本后，错误率、拒答率、幻觉率有没有变差。
成本监控.每个业务、每类请求、每次调用到底花了多少钱。

这听起来不性感，但很要命。

没有这三件事，所谓 AI 转型很容易变成一张越来越厚的 token 发票。模型看着更强，产品反而可能更虚。因为产品的本事，不是永远调用最贵 API，而是知道什么时候不用它。

AI 行业的下一道分水岭，不是谁喊得更像 AGI，而是谁先把智能当成本项管理。

小模型不会终结大模型。它会把大模型从默认选项，逼回高端选项。

AI 公司开始算账：便宜模型正在改写推理成本

模型算账

选型转向

成本显性

分层调度

便宜模型

激进预测

案例信号

强模型定位

边界能力

收入追问

企业能力

路由评估

成本监控

小模型重新上桌，因为账单开始疼了

Harvey 的信号：问题在任务分配，不在单一模型崇拜

分水岭不是开源闭源，而是“最强”让位给“够用”