一个反常信号:跑一次 AI 评测,正在变得像训练一次小模型。
Hugging Face 这篇博文讲的不是某家公司涨价,而是评测范式变了。Holistic Agent Leaderboard(HAL)为了跑 9 个模型、9 个基准,做了 21730 次 Agent rollout,花了约 4 万美元。单次 GAIA 前沿模型运行,缓存前最高可到约 2829 美元。
过去评测像考试卷。现在越来越像让模型上班:查网页、写代码、调用工具、反复试错,甚至重新训练和复现实验。
这事重要,不是因为账单难看,而是因为行业门槛在换位置。以后不只是看谁能训模型,还要看谁能拿出可靠证据,证明模型真的能做事。
贵在哪里:静态题库还能省,Agent 很难省
Hugging Face 博文里最有用的判断,是把评测拆成三类。它们不是同一种成本。
| 评测类型 | 典型任务 | 压缩空间 | 真正贵的变量 |
|---|---|---|---|
| 静态基准 | HELM、MMLU 这类题库 | 可压缩 100-200 倍 | 题目抽样、排名稳定性 |
| Agent 评测 | 多轮工具调用、网页任务、代码任务 | 多数只有 2-3.5 倍 | model × scaffold × token budget |
| 训练闭环评测 | 重新训练、复现实验、跑竞赛 | 很难压 | GPU 训练时间本身就是评测对象 |
静态基准便宜,是因为它像抽卷子。Flash-HELM、tinyBenchmarks 这类方法已经证明,很多题库不必完整跑完。MMLU 可以从 14000 道题压到 100 个锚点,排名误差仍可控。
Agent 评测麻烦得多。每道题不是一个答案,而是一段轨迹。模型要不要用工具、用几轮、给多少 token、脚手架怎么写,都会改结果,也会改账单。
这里不能只盯 API 单价。Agent 成本取决于 model × scaffold × token budget。脚手架不是包装纸,是变量本身。
Exgentic 做过一次约 2.2 万美元的配置扫描,发现同一任务下成本可差 33 倍。也就是说,两个团队都说自己测了同一个模型,最后测到的可能是两套完全不同的系统。
更尴尬的一点:贵不等于准。HAL 里有些配置花上千美元,只换来很小准确率差距;也有更便宜的方案效果更好。成本上升能买到更多证据,但不能自动买到更高能力。
这对模型团队很实际。以后发榜单,光写一个分数不够了。评测协议、脚手架、token 预算、重复次数,都得一起交代。否则分数看着漂亮,别人也很难信。
真正烧钱的是可靠性,不是单次跑分
单次评测买到的只是一个截图。可靠性才是账单主体。
Agent 任务天然会抖。模型可能第一次成功,第二次失败;今天网页元素还在,明天接口变了;脚手架换一点,结果和成本一起漂。静态题库的压缩经验,不能直接搬到这里。
再往前走,训练闭环评测更重。The Well、MLE-Bench、PaperBench 这类评测,把“重新训练”和“复现实验”放进流程。The Well 评估一个新架构约 960 个 H100 小时;完整四基线扫描约 3840 个 H100 小时。MLE-Bench 单 seed 跑 75 个 Kaggle 竞赛,GPU 底价约 2700 美元,加上模型调用约 5500 美元。
这时评测已经不是问模型会不会答题,而是问它能不能完成一段真实工作。真实工作没有廉价快捷键。
更贵的部分还在后面:多次运行、一致性测试、holdout、防泄漏。τ-bench 里,单次 60% 的表现,在 8 次一致性要求下可能掉到 25%。这不是统计洁癖,是产品现实。
对产品负责人来说,采购动作会变慢。不能只看“某模型在某榜单领先”。更该问四件事:
- 这个分数跑了几次?方差多大?
- 脚手架是谁写的?是否偏向某类模型?
- 有没有 holdout?怎么防数据泄漏?
- 成本和准确率是不是在同一张 Pareto 图上?
如果这些问题答不上来,最稳妥的动作不是立刻换模型,而是延后采购,先做小规模复测。尤其是把模型接进客服、研发、数据分析这类真实流程时,单次跑分不够用。
小团队也会受影响。过去可以靠聪明调参和漂亮 demo 获得注意力。现在要进入企业生产环境,必须补一套验证系统。钱不是唯一门槛,但会变成筛子。
门槛换位置:便宜榜单会越来越吵
我更在意的不是“评测变贵”,而是它会重新分配行业话语权。
过去大模型竞争的门槛很直白:数据、GPU、训练团队。现在又加了一层:谁能持续、系统、可信地验证能力。
“天下熙熙,皆为利来。”评测也是利益结构。排行榜便宜时,大家追排行榜;真实评测昂贵时,能付账、能做审计、能跑复现实验的人,就更有解释权。
这和早期互联网广告有点像,不完全一样,但结构相似。点击量便宜时,大家追点击;转化和留存要算清楚时,小网站的话语权就变弱了。AI 评测也会经历这个过程:从看热闹的分数,走向更慢、更贵、更像审计的验证。
便宜榜单不会消失。它仍然适合做筛选入口,帮人快速排除明显不行的模型。
但它会越来越像噪音入口,而不是最终证据。真正值钱的评测,会像工程验收、临床试验和财务审计:慢,贵,流程繁琐,但能挡住一次性表演。
接下来最该观察的,不是谁又刷了一个新高分,而是三件事:
| 观察点 | 为什么重要 | 对谁影响最大 |
|---|---|---|
| Agent 评测协议是否公开 | 不公开脚手架和预算,分数很难比较 | 模型团队、采购方 |
| 成本-效果曲线是否一起披露 | 只看准确率会奖励烧钱配置 | 产品负责人、企业客户 |
| holdout 和防泄漏是否更严格 | 数据污染会让榜单变成幻觉放大器 | 评测平台、应用团队 |
这里也有现实限制。不是每家公司都能承担 HAL 这种数万美元级别的 Agent 评测,更不可能天天跑训练闭环评测。多数团队会退而求其次:先用便宜基准筛模型,再用少量高价值任务做复测,最后只在关键流程上跑稳定性测试。
这不是完美方案,但比只看榜单强。
AI 行业以前喜欢一句话:模型能力会越来越强。现在该补半句:证明能力的成本,也会越来越高。
