Arena 年化收入冲到 1 亿美元：AI 排行榜最值钱的不是排名

核心摘要 Summary

Arena 商业化服务上线 8 个月后，年化 run-rate revenue 达到 1 亿美元；但它按用量收费，不能直接当成传统可续约 ARR。
更关键的变化是：AI 竞争正在把评测、偏好数据和后训练服务推成基础设施生意。
模型能力越接近，掌握评测入口和反馈循环的人，议价权越高。

一个靠用户投票比较 AI 模型的网站，商业化 8 个月后，年化收入跑到 1 亿美元。

这件事表面像“排行榜也能赚钱”。我更在意的是另一层：当模型差距越来越小，行业开始愿意为“谁更好、为什么更好、怎么改得更好”付大钱。

Arena 的新位置，不是媒体榜单。它更像 AI 后训练预算里的一个入口。

这 1 亿美元，不能直接当 SaaS ARR

Arena 最早来自 UC Berkeley 2023 年的研究项目。

玩法很简单：用户输入一个 prompt，系统把问题发给两个模型。用户看完两个回答后投票，选 A 好，还是 B 好。

超过 1000 万次众包评估，堆出了今天很多人会看的 AI 模型排行榜。

Arena 在 2025 年 4 月公司化，2025 年 9 月推出商业服务 AI Evaluations，给模型实验室和企业做更深入的性能分析。免费排行榜继续存在，收入来自商业评测。

关键信息	事实	该怎么理解
起源	2023 年 UC Berkeley 研究项目	学术出身给了第一层信任
榜单机制	用户比较两个模型后投票	数据来自众包偏好，不是绝对客观真理
数据基础	超过 1000 万次用户众包评估	规模是资产，样本结构也是限制
商业化	2025 年 9 月上线 AI Evaluations	卖的是深度评测，不是榜单广告
收入变化	今年 1 月约 3000 万美元年化，如今称 1 亿美元 run-rate	增长很快，但稳定性要另看
收费方式	CEO 称按 consumption 收费	不能等同传统可续约 ARR
融资	总融资 2.5 亿美元，A 轮估值 17 亿美元	资本押的是后训练和评测预算

这里最容易误读的是 ARR。

Arena 自己使用 ARR 说法，但 CEO Anastasios Angelopoulos 也明确说，公司按 consumption，也就是用量收费。

所以这 1 亿美元更像当前速度下的年化 run-rate revenue，不是传统 SaaS 那种已签约、可续约、每年稳定摊开的经常性收入。

速度是真的。确定性要打折。

这对投资人和创业者很关键。看 Arena，不能只看“1 亿美元”这个数字，还要看使用量能不能持续、客户是不是重复购买、评测需求会不会被模型厂商内部化。

目前这些变量还看不清。不能替它补答案。

它卖的不是榜单，是模型厂商的焦虑

免费排行榜像一个前台。

真正收费的东西在后台：更细的评测、更具体的偏好分析、更接近真实任务的模型比较。

模型公司想知道的不是“我排第几”。它们更想知道：用户为什么觉得另一个回答更好？差距出在哪类任务？是推理、代码、视觉、图像生成，还是复杂工作流里的稳定性？

企业客户也一样。

它们不缺一个热闹榜单。它们缺的是采购判断：这套模型能不能进业务？Agent Mode 这种长链路场景会不会掉链子？换模型的收益，够不够覆盖迁移和验证成本？

这就是 Arena 进入的预算池。

它的竞争对象不只是另一个排行榜，而是 Mercor、Scale AI、Surge、Handshake 这类后训练、人工标注、评测服务公司。大家抢的是同一类钱：AI 公司为了把模型再拧紧一点，愿意花的预算。

这个市场已经很拥挤，也很热。

Handshake 的 AI training 年化总收入据报道从今年 1 月的 5.5 亿美元接近翻到 10 亿美元。Mercor 年化收入也在今年早些时候超过 10 亿美元。Arena 的 1 亿美元，不是孤立事件。

它说明一件事：预训练把模型送上牌桌，后训练决定模型能不能变成产品。

对模型团队来说，动作会很具体：更多钱会从“再训一个大版本”流向评测集、偏好数据、红队测试、任务型 benchmark 和人工反馈流程。

对企业 AI 团队来说，也会更现实：别只看总榜第一。采购前要问评测是不是覆盖自己的任务、样本是不是接近内部数据、结果能不能复现。

买评测服务不是买安心。买的是减少误判。

排行榜不是法官，但会塑造共识

我不太买账的一点，是把 Arena 包装成完全客观的裁判。

它有价值。它确实给行业提供了一个公开观察窗口。但众包偏好不是铁律。

用户是谁，会影响结果。题目怎么分布，会影响结果。哪些模型更早进入测试，也会影响行业叙事。

排行榜不是阴谋。它更像一套会被反复引用的仪表盘。

一旦模型厂商、媒体、开发者都盯着这块仪表盘，仪表盘就不只是记录现实，也会反过来改变现实。

这才是 Arena 最微妙的地方。

它一边服务公众，让大家看到模型强弱；一边服务企业，出售更细的评测和反馈。这里天然有张力：公共榜单越有影响力，商业评测越好卖；商业服务越深入，外界越会关心它如何保持边界。

这不是说 Arena 做错了。恰恰相反，它少见地踩中了 AI 行业的真需求。

只是这个位置不能只用“中立榜单”四个字带过。

历史上类似的生意并不少见。铁路时代有轨距和调度，电力时代有计量系统，互联网时代有流量入口。不完全一样，但权力结构相似：行业从蛮荒扩张进入效率比拼，基础设施开始收租。

“天下熙熙，皆为利来。”今天的利来，不只是算力，也包括人类偏好。

接下来最该看的，不是 Arena 排行榜下一次谁登顶，而是三个变量。

观察变量	为什么重要	影响谁
用量收入能否持续	consumption 收费容易受项目节奏影响	投资人、评测服务创业者
公共榜单与商业评测如何隔离	关系到信任和利益冲突	模型厂商、开发者、媒体引用者
企业是否把外部评测纳入采购流程	决定评测服务能否从模型圈走向企业 IT 预算	企业 AI 团队、模型供应商

如果用量增长停了，1 亿美元只是漂亮的速度表。

如果公共榜单的信任被消耗，商业评测也会受伤。

如果企业采购真的把外部评测当成必经流程，Arena 这类公司就不只是榜单公司，而会变成 AI 采购链条里的基础节点。

这才是这条新闻的分水岭。

模型看着更强，产品反而更难。因为最后那一点差距，常常不是多堆一点算力就能砸出来，而是由无数次人类判断磨出来的。

Arena 的 1 亿美元，不该被读成排行榜创业故事。它更像一个提醒：AI 后半场，钱正在流向那些能定义“好模型”的人。

Arena 年化收入冲到 1 亿美元：AI 排行榜最值钱的不是排名

Arena变现

收入成色

非传统ARR

续购待验

商业内核

榜单前台

评测后台

预算迁移

模型厂商

企业采购

信任张力

共识塑造

边界风险

后续变量

用量持续

采购嵌入

这 1 亿美元，不能直接当 SaaS ARR

它卖的不是榜单，是模型厂商的焦虑

排行榜不是法官，但会塑造共识