一个靠用户投票比较 AI 模型的网站,商业化 8 个月后,年化收入跑到 1 亿美元。

这件事表面像“排行榜也能赚钱”。我更在意的是另一层:当模型差距越来越小,行业开始愿意为“谁更好、为什么更好、怎么改得更好”付大钱。

Arena 的新位置,不是媒体榜单。它更像 AI 后训练预算里的一个入口。

这 1 亿美元,不能直接当 SaaS ARR

Arena 最早来自 UC Berkeley 2023 年的研究项目。

玩法很简单:用户输入一个 prompt,系统把问题发给两个模型。用户看完两个回答后投票,选 A 好,还是 B 好。

超过 1000 万次众包评估,堆出了今天很多人会看的 AI 模型排行榜。

Arena 在 2025 年 4 月公司化,2025 年 9 月推出商业服务 AI Evaluations,给模型实验室和企业做更深入的性能分析。免费排行榜继续存在,收入来自商业评测。

关键信息事实该怎么理解
起源2023 年 UC Berkeley 研究项目学术出身给了第一层信任
榜单机制用户比较两个模型后投票数据来自众包偏好,不是绝对客观真理
数据基础超过 1000 万次用户众包评估规模是资产,样本结构也是限制
商业化2025 年 9 月上线 AI Evaluations卖的是深度评测,不是榜单广告
收入变化今年 1 月约 3000 万美元年化,如今称 1 亿美元 run-rate增长很快,但稳定性要另看
收费方式CEO 称按 consumption 收费不能等同传统可续约 ARR
融资总融资 2.5 亿美元,A 轮估值 17 亿美元资本押的是后训练和评测预算

这里最容易误读的是 ARR。

Arena 自己使用 ARR 说法,但 CEO Anastasios Angelopoulos 也明确说,公司按 consumption,也就是用量收费。

所以这 1 亿美元更像当前速度下的年化 run-rate revenue,不是传统 SaaS 那种已签约、可续约、每年稳定摊开的经常性收入。

速度是真的。确定性要打折。

这对投资人和创业者很关键。看 Arena,不能只看“1 亿美元”这个数字,还要看使用量能不能持续、客户是不是重复购买、评测需求会不会被模型厂商内部化。

目前这些变量还看不清。不能替它补答案。

它卖的不是榜单,是模型厂商的焦虑

免费排行榜像一个前台。

真正收费的东西在后台:更细的评测、更具体的偏好分析、更接近真实任务的模型比较。

模型公司想知道的不是“我排第几”。它们更想知道:用户为什么觉得另一个回答更好?差距出在哪类任务?是推理、代码、视觉、图像生成,还是复杂工作流里的稳定性?

企业客户也一样。

它们不缺一个热闹榜单。它们缺的是采购判断:这套模型能不能进业务?Agent Mode 这种长链路场景会不会掉链子?换模型的收益,够不够覆盖迁移和验证成本?

这就是 Arena 进入的预算池。

它的竞争对象不只是另一个排行榜,而是 Mercor、Scale AI、Surge、Handshake 这类后训练、人工标注、评测服务公司。大家抢的是同一类钱:AI 公司为了把模型再拧紧一点,愿意花的预算。

这个市场已经很拥挤,也很热。

Handshake 的 AI training 年化总收入据报道从今年 1 月的 5.5 亿美元接近翻到 10 亿美元。Mercor 年化收入也在今年早些时候超过 10 亿美元。Arena 的 1 亿美元,不是孤立事件。

它说明一件事:预训练把模型送上牌桌,后训练决定模型能不能变成产品。

对模型团队来说,动作会很具体:更多钱会从“再训一个大版本”流向评测集、偏好数据、红队测试、任务型 benchmark 和人工反馈流程。

对企业 AI 团队来说,也会更现实:别只看总榜第一。采购前要问评测是不是覆盖自己的任务、样本是不是接近内部数据、结果能不能复现。

买评测服务不是买安心。买的是减少误判。

排行榜不是法官,但会塑造共识

我不太买账的一点,是把 Arena 包装成完全客观的裁判。

它有价值。它确实给行业提供了一个公开观察窗口。但众包偏好不是铁律。

用户是谁,会影响结果。题目怎么分布,会影响结果。哪些模型更早进入测试,也会影响行业叙事。

排行榜不是阴谋。它更像一套会被反复引用的仪表盘。

一旦模型厂商、媒体、开发者都盯着这块仪表盘,仪表盘就不只是记录现实,也会反过来改变现实。

这才是 Arena 最微妙的地方。

它一边服务公众,让大家看到模型强弱;一边服务企业,出售更细的评测和反馈。这里天然有张力:公共榜单越有影响力,商业评测越好卖;商业服务越深入,外界越会关心它如何保持边界。

这不是说 Arena 做错了。恰恰相反,它少见地踩中了 AI 行业的真需求。

只是这个位置不能只用“中立榜单”四个字带过。

历史上类似的生意并不少见。铁路时代有轨距和调度,电力时代有计量系统,互联网时代有流量入口。不完全一样,但权力结构相似:行业从蛮荒扩张进入效率比拼,基础设施开始收租。

“天下熙熙,皆为利来。”今天的利来,不只是算力,也包括人类偏好。

接下来最该看的,不是 Arena 排行榜下一次谁登顶,而是三个变量。

观察变量为什么重要影响谁
用量收入能否持续consumption 收费容易受项目节奏影响投资人、评测服务创业者
公共榜单与商业评测如何隔离关系到信任和利益冲突模型厂商、开发者、媒体引用者
企业是否把外部评测纳入采购流程决定评测服务能否从模型圈走向企业 IT 预算企业 AI 团队、模型供应商

如果用量增长停了,1 亿美元只是漂亮的速度表。

如果公共榜单的信任被消耗,商业评测也会受伤。

如果企业采购真的把外部评测当成必经流程,Arena 这类公司就不只是榜单公司,而会变成 AI 采购链条里的基础节点。

这才是这条新闻的分水岭。

模型看着更强,产品反而更难。因为最后那一点差距,常常不是多堆一点算力就能砸出来,而是由无数次人类判断磨出来的。

Arena 的 1 亿美元,不该被读成排行榜创业故事。它更像一个提醒:AI 后半场,钱正在流向那些能定义“好模型”的人。