别再迷信大模型总分了：开源追近闭源，差的不是几分，是谁买下了训练场

核心摘要 Summary

这次补上的关键信息，不是哪家模型又多了几分，而是一个更刺眼的事实：行业最爱引用的综合榜单，越来越难代表真实使用表现。
开源和中国模型确实在追近，甚至在不少可评测项目上咬得很紧；但闭源巨头真正的领先，开始藏在更贵的训练环境、私有工作流数据和“谁来定义前沿任务”这件事里。

WhatsApp Plus 这件事，放到今天再看，主线没变：聊天本身没直接收费，但平台已经开始对关系链、身份触达、商业入口逐步标价。旧稿讲的是“谁在把社交网络的周边资产变现”。这次新线索补强的，是另一层更底下的逻辑：别只盯着表面价格，先看是谁在定义价值、谁在控制评测口径、谁握着真正稀缺的训练场。

这不是跑题，反而是把平台收费这件事看得更透。因为不管是社交平台卖入口，还是大模型公司卖能力，最会赚钱的一方，往往都不只是卖产品，而是在卖自己定义过的一套衡量标准。名不正，则言不顺。今天很多“高分”“领先”“Plus 值这个价”，问题都出在“名”与“实”开始脱节。

新补了什么：不是多一个观点，是多了一个判断框架

新来源相比旧稿，真正新增了三点。

行业常引用的综合分，本质上只是少数子评测拼出来的总分，能看趋势，不能直接等同真实表现。
真正拉开差距的任务已经换了.从聊天、数学、简单代码，转向复杂编码、terminal tasks、工具调用和专业代理工作。
闭源领先越来越不像“模型天赋领先”，更像“先买下训练环境、私有数据和评测定义权”。

这三点放回 WhatsApp Plus，很有解释力。平台卖的从来不只是一个功能按钮，而是把“什么算有效触达、什么算值得付费、什么算高级能力”都先定义好，再把价格贴上去。用户看到的是 Plus，平台拿走的是定价权。

为什么“一个总分”越来越不够看

过去两年，模型评测的题目换得太快。早期大家比聊天顺不顺、数学会不会、代码能不能写点小脚本。现在行业重心已经偏到另一边：复杂代码库、多步工具调用、终端操作、长上下文稳定性，甚至法律、会计、医疗这类更专业的代理场景。

问题在这儿：很多榜单还在，题已经换了。

这就像拿中学月考成绩去衡量一个人能不能独立做项目。不是完全没关系，但关系已经没你想得那么大。Interconnects 点得很准：Artificial Analysis Intelligence Index 这种综合分，更适合看趋势，不适合直接代替真实工作流表现。

典型例子是 Gemini 3。基准成绩强，不等于在当下最被认真测试、也最愿意花钱部署的 agent 场景里就有同等存在感。这里不是说它弱，而是“高分=高价值”这条公式，正在失灵。

对企业买家和开发者来说，影响很直接：

你要的不是榜单第一，你要的是一周跑下来别掉链子。
你关心的不是模型会不会答题，而是能不能接进现有工具链。
你买的不是一张海报，而是一套可兜底、可审计、可维护的工作流。

分数是门面，环境才是地基。这句话放在模型上成立，放在平台订阅上也成立。看着像在卖功能，实则在卖控制权。

开源追得很近，但闭源手里攥着更贵的东西

我不太买账的一种说法，是把开源和中国模型的进步一股脑归结为“蒸馏得快”。这话只说对一半。

新线索里最有价值的地方，是把差距来源说得更具体了。开源和中国模型确实很强，尤其在那些已经能被公开评测、或者能贴近公开评测的任务上，追得很快，很多时候甚至已经足够接近，接近到企业会认真算账：是不是能把高价 API 换掉，是不是能把开发栈收回自己手里。

但另一半现实也别装看不见。闭源前沿实验室的优势，越来越在训练环境上，而不只是参数规模或宣传词。复杂 agent 任务、私有工作流、专业行业数据，这些东西贵、稀缺、难复制。谁先砸钱搭好环境，谁就先有下一代能力的试验场。

这跟晶圆厂有点像，不完全一样，但逻辑相近：你看到的是成品差距，真正难补的是上游基础设施。等别人把路踩热，后来者当然还能更便宜地追；可在新能力刚冒头的阶段，先行者确实更容易跑出一段身位。

所以今天更准确的判断不是“闭源遥遥领先”，也不是“开源已经平替一切”，而是：

可评测、可复制的能力，开源会咬得很紧。
分布外、长链路、强依赖环境的能力，闭源暂时更稳。
真正决定商业议价权的，不只是模型会什么，而是谁先把训练场围起来。

原文提到的 WeirdML、ARC AGI 2、长上下文稳定性、agent 上下文重置等问题，都说明一点：开源不是没用，是还没稳到能在所有高要求场景里无脑替换 Claude、Codex 这一类闭源产品。

这对企业客户的意义比对普通用户大得多。企业不是在买一句“能力接近”，而是在买故障率、接入成本、责任边界和采购可解释性。掉一次链子，省下来的模型费可能一天就吐回去。

WhatsApp Plus 真正卖的，也不是功能，而是评测权和入口权

把镜头拉回 WhatsApp Plus，事情就更清楚了。

如果一个平台开始对“周边能力”定价，最该问的不是它多加了几个功能，而是它把哪部分原本模糊、原本属于公共关系链的东西，重新包装成了可收费资产。平台一旦既掌握入口，又掌握评价口径，它收费就不再只是卖工具，而是在出售自己定义过的稀缺性。

这和今天大模型榜单的问题，骨子里是同一件事。

榜单本来是测量工具。可一旦它开始影响融资、采购、销售叙事，它就不再只是尺子，也成了生意的一部分。历史上铁路、石油、互联网泡沫都演过类似场面：资本压得最重的时候，行业最热衷发明新指标。指标一旦兼任价格标签，它就会天然偏向维护既有议价权。

天下熙熙，皆为利来。平台订阅如此，模型总分也是如此。

我更在意的是，这会把市场带到一个不太体面的方向：大家嘴上谈用户价值，手上抢的是定义价值的权力。谁定义“高级功能”，谁定义“领先能力”，谁就更容易把普通能力包装成高价能力，把基础访问包装成增值服务。

这不是阴谋论，是很普通的商业惯性。问题不在于公司想赚钱，问题在于它是不是在拿一套越来越脱离真实使用的指标，替自己的收费找遮羞布。

接下来别盯总分，盯这三件事

如果你是开发者，或者是要做采购判断的团队负责人，后面更该看的是这三件事。

复杂终端任务、专业代理任务，能不能出现更被广泛接受的公开评测。
闭源实验室在这些任务上的领先，能不能稳定转成续费和长期合同，而不是只停留在演示层面。
开源和中国模型能不能继续在非蒸馏路径上补短板，特别是长上下文、工具调用稳定性和真实 agent 可靠性。

换句话说，别再只问“谁总分更高”。要问：

谁在你的工作流里更稳。
谁更便宜，而且不是便宜一天。
谁更容易集成进现有系统。
谁出错时，你有能力兜住。

放到 WhatsApp Plus 也是一样。别只看它有没有新权益，要看这些权益是不是建立在平台对关系链、触达入口和商业规则的进一步圈地上。产品看着更丰富，用户未必更自由；功能看着更值钱，依赖可能更深。

技术行业最擅长的一件事，就是把控制包装成服务，把定价包装成升级。苏轼说“横看成岭侧成峰”，放在这里也合适：从产品页面看，是新增功能；从商业结构看，是入口加税。

我不反对收费，也不迷信开源天然正义。该付的钱要付，该买的能力也该买。但前提是别被一张总分榜、一套 Plus 叙事、一串营销词牵着走。你买的是能力，还是口径；买的是效率，还是依附；买的是今天能跑，还是明天被锁，这几件事必须分开看。

别再迷信大模型总分了：开源追近闭源，差的不是几分，是谁买下了训练场

总分失灵

榜单失真

任务迁移

采购错位

开闭源差距

开源追近

闭源护城河

商业本质

口径变现

入口加税

后续变量

评测演进

替代条件

新补了什么：不是多一个观点，是多了一个判断框架

为什么“一个总分”越来越不够看

开源追得很近，但闭源手里攥着更贵的东西

WhatsApp Plus 真正卖的，也不是功能，而是评测权和入口权

接下来别盯总分，盯这三件事