一件很反常的事正在发生:AI 行业烧了这么多年钱,终于开始认真问一句朴素的话——这活儿,非得用最贵的模型干吗?
Coinbase 联合创始人 Brian Armstrong 最近给了一个激进判断:未来 12-18 个月内,80% 的 AI 工作负载可能跑到便宜 99% 的模型上,只有 20% 留给最强模型。注意,这不是已经发生的行业统计,只是预测。但它戳中了 AI 商业化最疼的地方:补贴变弱,token 账单变厚,企业开始算细账。
小模型重新上桌,因为账单开始疼了
过去几年,很多团队默认用前沿大模型。
理由也简单:能力强,省心,出错少。尤其在产品早期,开发团队宁可多花钱,也不想把质量风险扛到自己身上。
现在变量变了。AI 应用进入常态化使用,调用量上来,推理成本就不再是实验预算,而是经营成本。
| 问题 | 过去的默认做法 | 现在的变化 | 受影响对象 |
|---|---|---|---|
| 模型选择 | 默认调用最强模型 | 按任务拆分,能省则省 | AI 产品团队、工程负责人 |
| 成本结构 | token 账单被增长掩盖 | 调用量越大,成本越刺眼 | 企业采购、财务团队 |
| 模型叙事 | 前沿模型是默认入口 | 前沿模型变成高价值任务选项 | OpenAI、Anthropic 等实验室 |
| 技术边界 | 强模型兜底一切 | 高复杂任务仍需要强模型 | 法律、金融、代码等严肃场景 |
这件事重要,不是因为小模型突然“赢了”。
更准确地说,是企业第一次有足够强的动力,把任务从“一个模型包打天下”改成“分层调度”。
采购负责人会更谨慎。续约时不只问模型能力,还会问每类任务的 token 成本、命中率、失败率。AI 产品团队也会被迫补课:哪些请求必须上旗舰模型,哪些请求用便宜模型就够。
这才是真变化。
Harvey 的信号:问题在任务分配,不在单一模型崇拜
现有证据里,最有参考价值的是 Harvey 的测试。
这家法律 AI 公司和 Fireworks AI 做了一次组合实验:复杂任务交给 Claude Opus,其余任务交给 Fireworks 提供的 GLM 5.1。结果是,推理成本降低 3 倍,质量没有下降。
这个案例不能被夸大。
它只是法律 AI 场景中的一个早期信号。现有信息不足以证明所有行业、所有任务都能照搬。样本怎么选,质量怎么评估,失败案例怎么处理,这些细节都会影响结论。
但它至少说明一件事:很多 AI 成本问题,未必是模型不够强,而是任务分配太粗。
以前大家习惯一把梭。能用旗舰模型,就别冒险。
现在账单来了,粗放就变贵了。
| 路线 | 好处 | 代价 | 适合谁 |
|---|---|---|---|
| 全部用前沿大模型 | 质量更稳,接入简单 | 成本高,冗余多 | 早期验证、低调用量产品 |
| 全部用便宜模型 | 成本低 | 复杂任务质量风险高 | 低风险、标准化任务 |
| 模型路由 | 成本和质量可平衡 | 需要评估体系和工程投入 | 调用量大、质量要求高的企业 |
我更相信第三条路。
不是因为它听起来先进,而是因为它像正常生意。铁路、电力、云计算都走过类似过程:早期拼极限能力,后期拼单位成本和调度效率。不完全一样,但商业逻辑相近。基础设施越成熟,客户越不愿意为冗余付费。
“天下熙熙,皆为利来。”放在 AI 里很直白:客户不是来膜拜模型的,客户是来买结果的。
分水岭不是开源闭源,而是“最强”让位给“够用”
这件事常被讲成“美国闭源模型 vs 中国开源模型”。这个说法太窄。
真正的对比是前沿大模型和便宜模型,是最强模型和够用模型。企业可以换到开源模型,也可以换到同一家公司的轻量版本。省钱的关键不是立场,而是别拿大炮打蚊子。
这会给 OpenAI、Anthropic 这类前沿模型实验室带来一种更难受的压力。
不是说它们的收入已经恶化。现有事实支撑不了这个判断。高复杂任务仍会需要最强模型,前沿能力也仍然决定行业上限。
问题在叙事。
如果 Armstrong 的判断接近现实,大量工作负载会从旗舰模型迁出去。那市场就会追问一个更具体的问题:你训练最贵模型的成本,能不能从足够多的高价值任务里赚回来?
这对 IPO 故事尤其关键。
过去的故事是:模型越强,调用越多,推理增长越大。现在要补一条:调用增长不等于旗舰模型收入增长。企业会把任务拆开,把贵模型留给最难的 20%。剩下 80%,谁便宜、谁稳定、谁好接入,谁就有机会。
对企业客户来说,接下来该看的不是榜单第一名是谁,而是三件事:
- 路由能力.系统能不能判断任务难度,并自动选择模型。
- 质量评估.降本后,错误率、拒答率、幻觉率有没有变差。
- 成本监控.每个业务、每类请求、每次调用到底花了多少钱。
这听起来不性感,但很要命。
没有这三件事,所谓 AI 转型很容易变成一张越来越厚的 token 发票。模型看着更强,产品反而可能更虚。因为产品的本事,不是永远调用最贵 API,而是知道什么时候不用它。
AI 行业的下一道分水岭,不是谁喊得更像 AGI,而是谁先把智能当成本项管理。
小模型不会终结大模型。它会把大模型从默认选项,逼回高端选项。
