阿里把 Qwen3.6-Max 端上来,这条新闻本身不难懂:开源阵营继续逼近前沿闭源,性能差距还在,但没大到可以高枕无忧。
这次真正值得补强的,不是“又一个模型更强了”,而是另一层更现实的判断:现在看 AI,不能再只盯综合榜单分数。新来源补上的核心信息很明确——评测没失效,但它和真实部署价值的相关性在下降。旧稿说 AI 生意抢的是接入权,这次线索把这句话又钉实了一层:接入权不只是渠道优势,它正在变成训练优势、产品优势和定价优势的共同来源。
对读者最有用的速览就三点:
- 发生了什么.Qwen3.6-Max 让开源继续逼近闭源,但“逼近”越来越不能只靠榜单解释
- 为什么重要.模型竞争重心,正从聊天和做题,转向 coding、terminal tasks、agent workflow 这类真实任务
- 谁最受影响.企业采购方,以及必须证明自己还能持续领先的闭源前沿实验室
榜单还在,含金量却没以前那么稳了
这几年模型能力的考法,换了不止一轮。
ChatGPT 刚出来时,大家比聊天、数学、基础代码,instruction tuning 和 RLHF 是主角。到了现在,推理模型几乎成了标配,焦点已经往更复杂的 coding、终端操作、agent 执行链路上走。你让模型多答对两道题,未必比它少在真实流程里犯一次错更值钱。
这就是新线索补得最有价值的地方:它不是说 benchmark 没用,而是说 benchmark 只是“前沿能力切片”,不是现实世界能力全貌。分数当然能看,但把它当圣旨,就会犯老毛病——把一场复杂战争理解成体育比分。方便,且误导。
有个对照很能说明问题:有些模型基准成绩很好看,但在 agent 落地和部署讨论里存在感并不强。这不证明评测失灵,只说明商业价值的重心已经在挪。古人讲“差之毫厘,谬以千里”,放在今天很贴切:测得很精,不等于用得很准。
所以,Qwen3.6-Max 这类发布,真正该看的不是“它又涨了几分”,而是它能不能进入那些更接近生产环境的任务带。能不能接终端。能不能跑 workflow。能不能让企业少付闭源税。这个问题,比榜单名次更值钱。
现在的门槛,不只是谁会训模型,而是谁买得到环境
旧稿的主判断是:AI 生意抢的不是模型,是接入权。
新线索没有推翻它,反而把它从销售端扩展到了训练端。因为后训练范式也在变。越来越多能力提升,不再来自公开题库上反复刷分,而来自 RLVR 这类可验证奖励训练;奖励信号也不只是“题做对没有”,而是“任务到底做完没有”。
这就把门槛抬到了三个更难啃的位置:
- 可反复训练的任务环境
- 更私有的专业数据
- 接进企业软件和工作流的入口
这三样东西,恰好都不是开源社区最容易拿到的。
代码领域还算好,毕竟公共语料多,GitHub 这种地方还能不断供血。但法律、医疗、财务、企业流程这些知识工作,天然更封闭。谁先摸到真实环境,谁先拿到任务数据,谁先接进客户流程,谁就不只是“更会卖”,而是更会定义什么叫领先。
这也是我更愿意强调的一点:今天闭源实验室的护城河,不只是参数和显卡,更是环境、数据、客户、接口的联动。天下熙熙,皆为利来。很多公司嘴上讲技术神话,身体却很诚实:先把入口占住,再把评测做成自己擅长的样子。
这不是阴谋论,是产业常识。
而且还有个行业里都知道、对外却不爱讲透的现实:不少追赶者不只是靠蒸馏,也是在后来买到、接到、复用那些前沿玩家已经趟过坑的环境和数据。前面的花高价试错,后面的低价跟进。像芯片厂,也像铁路时代先修干线的人。不是谁道德更高,纯粹是谁先承担探索成本,谁后享扩散红利。
企业客户看的不是“最强”,而是“值不值这个价”
这事最直接影响的,首先是企业客户。
很多企业根本不迷信“全世界第一”。它们真正在乎的是两件事:一是模型够不够用,二是贵出来的那一截到底值不值。如果开源模型在某些 coding 或 agent 任务上已经够用,采购方就一定会松口。哪怕暂时不全面替代,也会拿来压价、做备选、分流非关键任务。
CIO 的算盘比行业叙事诚实得多。企业采购不是给榜单颁奖,是给流程买保险。
所以旧稿说“抢的是接入权”,放到今天要再说得更具体一点:谁接得进企业的系统,谁就更容易把“够用”变成订单;谁只能在排行榜上漂亮,谁就可能赢了海报,输了预算。
这对阿里和 Qwen 一类玩家是机会。因为一旦开源方案在真实任务里的可用性跨过阈值,它们就不只是技术展示品,而是企业采购谈判桌上的价格锤。锤子不一定立刻砸死闭源,但能把溢价先砸松。
闭源巨头真正的压力,是必须不停“重造前沿”
另一边被拷问的,是 OpenAI、Anthropic 这类前沿闭源实验室。
它们要维持高增长、高估值、高溢价,就必须不断证明自己还有清晰、可持续、可感知的领先。问题在于,如果 agent coding 这类能力开始趋同,企业继续付高价,买的就不只是模型本身了,更多会变成:
- 已经接好的工具链
- 客户流程里的迁移成本
- 安全、合规、支持和销售体系
- 组织惯性带来的默认选择
说白了,前沿实验室如果不能不断制造新的能力断层,就会越来越像一家强整合的软件供应商,而不是一台谁都追不上的科学奇迹机。
我不是说技术领先不存在。我不买账的是,有些公司喜欢把这种领先包装成纯技术必然,仿佛自己永远站在云端。其实这里面掺了太多现实成分:采购权、部署权、接口权、数据权。谁定义评测,谁掌握私有环境,谁先把模型嵌进客户流程,谁就更容易被讲成“持续领先”。
这不完全等于作弊,但也绝不是那种无尘真空里的神圣竞争。
历史上太多行业都这样。铁路、电力、操作系统、云计算,开头看的是技术突破,后面拼的都是接入、兼容、控制和结算。技术决定能不能上桌,入口决定谁能坐庄。AI 现在越来越像后者。
接下来别只盯分数,盯这三件更实的事
如果你是看产业的人,接下来我会盯三件事。
一是,复杂 agent benchmark 和真实部署之间的相关性,还能剩多少。要是相关性继续下降,榜单的传播价值还在,决策价值会继续缩水。
二是,专业场景的数据和任务环境,会不会继续私有化。要是越来越私有,闭源的优势就不只是模型强,而是训练材料和现实反馈都在自己院里。
三是,企业是否开始更大规模地用便宜的开源方案替代部分闭源调用。不是全替代,先替掉非关键、可容错、成本敏感的那部分,就已经足够改变市场定价。
这也是这次更新相对旧稿真正新增的价值:旧稿强调“接入权”是商业护城河;新线索补上了为什么这条护城河现在还反过来塑造评测、塑造训练、塑造领先叙事。换句话说,接入权已经不是模型之外的附属品,它开始参与定义模型本身的优势。
这就比“阿里又发了个更强模型”重要得多。
因为当行业还在热衷于用一个数字给 AI 排座次时,真正赚钱、真正卡位、真正锁住客户的那一层,早就不在榜单上了。榜单决定舆论,入口决定现金流。前者热闹,后者致命。
