一个靠用户投票比较 AI 模型的网站,商业化 8 个月后,年化收入跑到 1 亿美元。
这件事表面像“排行榜也能赚钱”。我更在意的是另一层:当模型差距越来越小,行业开始愿意为“谁更好、为什么更好、怎么改得更好”付大钱。
Arena 的新位置,不是媒体榜单。它更像 AI 后训练预算里的一个入口。
这 1 亿美元,不能直接当 SaaS ARR
Arena 最早来自 UC Berkeley 2023 年的研究项目。
玩法很简单:用户输入一个 prompt,系统把问题发给两个模型。用户看完两个回答后投票,选 A 好,还是 B 好。
超过 1000 万次众包评估,堆出了今天很多人会看的 AI 模型排行榜。
Arena 在 2025 年 4 月公司化,2025 年 9 月推出商业服务 AI Evaluations,给模型实验室和企业做更深入的性能分析。免费排行榜继续存在,收入来自商业评测。
| 关键信息 | 事实 | 该怎么理解 |
|---|---|---|
| 起源 | 2023 年 UC Berkeley 研究项目 | 学术出身给了第一层信任 |
| 榜单机制 | 用户比较两个模型后投票 | 数据来自众包偏好,不是绝对客观真理 |
| 数据基础 | 超过 1000 万次用户众包评估 | 规模是资产,样本结构也是限制 |
| 商业化 | 2025 年 9 月上线 AI Evaluations | 卖的是深度评测,不是榜单广告 |
| 收入变化 | 今年 1 月约 3000 万美元年化,如今称 1 亿美元 run-rate | 增长很快,但稳定性要另看 |
| 收费方式 | CEO 称按 consumption 收费 | 不能等同传统可续约 ARR |
| 融资 | 总融资 2.5 亿美元,A 轮估值 17 亿美元 | 资本押的是后训练和评测预算 |
这里最容易误读的是 ARR。
Arena 自己使用 ARR 说法,但 CEO Anastasios Angelopoulos 也明确说,公司按 consumption,也就是用量收费。
所以这 1 亿美元更像当前速度下的年化 run-rate revenue,不是传统 SaaS 那种已签约、可续约、每年稳定摊开的经常性收入。
速度是真的。确定性要打折。
这对投资人和创业者很关键。看 Arena,不能只看“1 亿美元”这个数字,还要看使用量能不能持续、客户是不是重复购买、评测需求会不会被模型厂商内部化。
目前这些变量还看不清。不能替它补答案。
它卖的不是榜单,是模型厂商的焦虑
免费排行榜像一个前台。
真正收费的东西在后台:更细的评测、更具体的偏好分析、更接近真实任务的模型比较。
模型公司想知道的不是“我排第几”。它们更想知道:用户为什么觉得另一个回答更好?差距出在哪类任务?是推理、代码、视觉、图像生成,还是复杂工作流里的稳定性?
企业客户也一样。
它们不缺一个热闹榜单。它们缺的是采购判断:这套模型能不能进业务?Agent Mode 这种长链路场景会不会掉链子?换模型的收益,够不够覆盖迁移和验证成本?
这就是 Arena 进入的预算池。
它的竞争对象不只是另一个排行榜,而是 Mercor、Scale AI、Surge、Handshake 这类后训练、人工标注、评测服务公司。大家抢的是同一类钱:AI 公司为了把模型再拧紧一点,愿意花的预算。
这个市场已经很拥挤,也很热。
Handshake 的 AI training 年化总收入据报道从今年 1 月的 5.5 亿美元接近翻到 10 亿美元。Mercor 年化收入也在今年早些时候超过 10 亿美元。Arena 的 1 亿美元,不是孤立事件。
它说明一件事:预训练把模型送上牌桌,后训练决定模型能不能变成产品。
对模型团队来说,动作会很具体:更多钱会从“再训一个大版本”流向评测集、偏好数据、红队测试、任务型 benchmark 和人工反馈流程。
对企业 AI 团队来说,也会更现实:别只看总榜第一。采购前要问评测是不是覆盖自己的任务、样本是不是接近内部数据、结果能不能复现。
买评测服务不是买安心。买的是减少误判。
排行榜不是法官,但会塑造共识
我不太买账的一点,是把 Arena 包装成完全客观的裁判。
它有价值。它确实给行业提供了一个公开观察窗口。但众包偏好不是铁律。
用户是谁,会影响结果。题目怎么分布,会影响结果。哪些模型更早进入测试,也会影响行业叙事。
排行榜不是阴谋。它更像一套会被反复引用的仪表盘。
一旦模型厂商、媒体、开发者都盯着这块仪表盘,仪表盘就不只是记录现实,也会反过来改变现实。
这才是 Arena 最微妙的地方。
它一边服务公众,让大家看到模型强弱;一边服务企业,出售更细的评测和反馈。这里天然有张力:公共榜单越有影响力,商业评测越好卖;商业服务越深入,外界越会关心它如何保持边界。
这不是说 Arena 做错了。恰恰相反,它少见地踩中了 AI 行业的真需求。
只是这个位置不能只用“中立榜单”四个字带过。
历史上类似的生意并不少见。铁路时代有轨距和调度,电力时代有计量系统,互联网时代有流量入口。不完全一样,但权力结构相似:行业从蛮荒扩张进入效率比拼,基础设施开始收租。
“天下熙熙,皆为利来。”今天的利来,不只是算力,也包括人类偏好。
接下来最该看的,不是 Arena 排行榜下一次谁登顶,而是三个变量。
| 观察变量 | 为什么重要 | 影响谁 |
|---|---|---|
| 用量收入能否持续 | consumption 收费容易受项目节奏影响 | 投资人、评测服务创业者 |
| 公共榜单与商业评测如何隔离 | 关系到信任和利益冲突 | 模型厂商、开发者、媒体引用者 |
| 企业是否把外部评测纳入采购流程 | 决定评测服务能否从模型圈走向企业 IT 预算 | 企业 AI 团队、模型供应商 |
如果用量增长停了,1 亿美元只是漂亮的速度表。
如果公共榜单的信任被消耗,商业评测也会受伤。
如果企业采购真的把外部评测当成必经流程,Arena 这类公司就不只是榜单公司,而会变成 AI 采购链条里的基础节点。
这才是这条新闻的分水岭。
模型看着更强,产品反而更难。因为最后那一点差距,常常不是多堆一点算力就能砸出来,而是由无数次人类判断磨出来的。
Arena 的 1 亿美元,不该被读成排行榜创业故事。它更像一个提醒:AI 后半场,钱正在流向那些能定义“好模型”的人。
