WhatsApp Plus 这件事,放到今天再看,主线没变:聊天本身没直接收费,但平台已经开始对关系链、身份触达、商业入口逐步标价。旧稿讲的是“谁在把社交网络的周边资产变现”。这次新线索补强的,是另一层更底下的逻辑:别只盯着表面价格,先看是谁在定义价值、谁在控制评测口径、谁握着真正稀缺的训练场。

这不是跑题,反而是把平台收费这件事看得更透。因为不管是社交平台卖入口,还是大模型公司卖能力,最会赚钱的一方,往往都不只是卖产品,而是在卖自己定义过的一套衡量标准。名不正,则言不顺。今天很多“高分”“领先”“Plus 值这个价”,问题都出在“名”与“实”开始脱节。

新补了什么:不是多一个观点,是多了一个判断框架

新来源相比旧稿,真正新增了三点。

  • 行业常引用的综合分,本质上只是少数子评测拼出来的总分,能看趋势,不能直接等同真实表现。
  • 真正拉开差距的任务已经换了.从聊天、数学、简单代码,转向复杂编码、terminal tasks、工具调用和专业代理工作。
  • 闭源领先越来越不像“模型天赋领先”,更像“先买下训练环境、私有数据和评测定义权”。

这三点放回 WhatsApp Plus,很有解释力。平台卖的从来不只是一个功能按钮,而是把“什么算有效触达、什么算值得付费、什么算高级能力”都先定义好,再把价格贴上去。用户看到的是 Plus,平台拿走的是定价权。

为什么“一个总分”越来越不够看

过去两年,模型评测的题目换得太快。早期大家比聊天顺不顺、数学会不会、代码能不能写点小脚本。现在行业重心已经偏到另一边:复杂代码库、多步工具调用、终端操作、长上下文稳定性,甚至法律、会计、医疗这类更专业的代理场景。

问题在这儿:很多榜单还在,题已经换了。

这就像拿中学月考成绩去衡量一个人能不能独立做项目。不是完全没关系,但关系已经没你想得那么大。Interconnects 点得很准:Artificial Analysis Intelligence Index 这种综合分,更适合看趋势,不适合直接代替真实工作流表现。

典型例子是 Gemini 3。基准成绩强,不等于在当下最被认真测试、也最愿意花钱部署的 agent 场景里就有同等存在感。这里不是说它弱,而是“高分=高价值”这条公式,正在失灵。

对企业买家和开发者来说,影响很直接:

  • 你要的不是榜单第一,你要的是一周跑下来别掉链子。
  • 你关心的不是模型会不会答题,而是能不能接进现有工具链。
  • 你买的不是一张海报,而是一套可兜底、可审计、可维护的工作流。

分数是门面,环境才是地基。这句话放在模型上成立,放在平台订阅上也成立。看着像在卖功能,实则在卖控制权。

开源追得很近,但闭源手里攥着更贵的东西

我不太买账的一种说法,是把开源和中国模型的进步一股脑归结为“蒸馏得快”。这话只说对一半。

新线索里最有价值的地方,是把差距来源说得更具体了。开源和中国模型确实很强,尤其在那些已经能被公开评测、或者能贴近公开评测的任务上,追得很快,很多时候甚至已经足够接近,接近到企业会认真算账:是不是能把高价 API 换掉,是不是能把开发栈收回自己手里。

但另一半现实也别装看不见。闭源前沿实验室的优势,越来越在训练环境上,而不只是参数规模或宣传词。复杂 agent 任务、私有工作流、专业行业数据,这些东西贵、稀缺、难复制。谁先砸钱搭好环境,谁就先有下一代能力的试验场。

这跟晶圆厂有点像,不完全一样,但逻辑相近:你看到的是成品差距,真正难补的是上游基础设施。等别人把路踩热,后来者当然还能更便宜地追;可在新能力刚冒头的阶段,先行者确实更容易跑出一段身位。

所以今天更准确的判断不是“闭源遥遥领先”,也不是“开源已经平替一切”,而是:

  • 可评测、可复制的能力,开源会咬得很紧。
  • 分布外、长链路、强依赖环境的能力,闭源暂时更稳。
  • 真正决定商业议价权的,不只是模型会什么,而是谁先把训练场围起来。

原文提到的 WeirdML、ARC AGI 2、长上下文稳定性、agent 上下文重置等问题,都说明一点:开源不是没用,是还没稳到能在所有高要求场景里无脑替换 Claude、Codex 这一类闭源产品。

这对企业客户的意义比对普通用户大得多。企业不是在买一句“能力接近”,而是在买故障率、接入成本、责任边界和采购可解释性。掉一次链子,省下来的模型费可能一天就吐回去。

WhatsApp Plus 真正卖的,也不是功能,而是评测权和入口权

把镜头拉回 WhatsApp Plus,事情就更清楚了。

如果一个平台开始对“周边能力”定价,最该问的不是它多加了几个功能,而是它把哪部分原本模糊、原本属于公共关系链的东西,重新包装成了可收费资产。平台一旦既掌握入口,又掌握评价口径,它收费就不再只是卖工具,而是在出售自己定义过的稀缺性。

这和今天大模型榜单的问题,骨子里是同一件事。

榜单本来是测量工具。可一旦它开始影响融资、采购、销售叙事,它就不再只是尺子,也成了生意的一部分。历史上铁路、石油、互联网泡沫都演过类似场面:资本压得最重的时候,行业最热衷发明新指标。指标一旦兼任价格标签,它就会天然偏向维护既有议价权。

天下熙熙,皆为利来。平台订阅如此,模型总分也是如此。

我更在意的是,这会把市场带到一个不太体面的方向:大家嘴上谈用户价值,手上抢的是定义价值的权力。谁定义“高级功能”,谁定义“领先能力”,谁就更容易把普通能力包装成高价能力,把基础访问包装成增值服务。

这不是阴谋论,是很普通的商业惯性。问题不在于公司想赚钱,问题在于它是不是在拿一套越来越脱离真实使用的指标,替自己的收费找遮羞布。

接下来别盯总分,盯这三件事

如果你是开发者,或者是要做采购判断的团队负责人,后面更该看的是这三件事。

  • 复杂终端任务、专业代理任务,能不能出现更被广泛接受的公开评测。
  • 闭源实验室在这些任务上的领先,能不能稳定转成续费和长期合同,而不是只停留在演示层面。
  • 开源和中国模型能不能继续在非蒸馏路径上补短板,特别是长上下文、工具调用稳定性和真实 agent 可靠性。

换句话说,别再只问“谁总分更高”。要问:

  • 谁在你的工作流里更稳。
  • 谁更便宜,而且不是便宜一天。
  • 谁更容易集成进现有系统。
  • 谁出错时,你有能力兜住。

放到 WhatsApp Plus 也是一样。别只看它有没有新权益,要看这些权益是不是建立在平台对关系链、触达入口和商业规则的进一步圈地上。产品看着更丰富,用户未必更自由;功能看着更值钱,依赖可能更深。

技术行业最擅长的一件事,就是把控制包装成服务,把定价包装成升级。苏轼说“横看成岭侧成峰”,放在这里也合适:从产品页面看,是新增功能;从商业结构看,是入口加税。

我不反对收费,也不迷信开源天然正义。该付的钱要付,该买的能力也该买。但前提是别被一张总分榜、一套 Plus 叙事、一串营销词牵着走。你买的是能力,还是口径;买的是效率,还是依附;买的是今天能跑,还是明天被锁,这几件事必须分开看。