Moonshot 放出开源权重的 Kimi K2.6,阿里预览 Qwen3.6-Max-Preview,Hermes Agent 生态继续膨胀。表面看是三条新闻,实际指向一件事:大模型竞赛的考题变了。

过去大家盯着分数。现在更现实的问题是:能不能接工具,能不能长时间运行,能不能并行分工,出错后能不能自己重规划。分数还是要看,但已经不是全部。对做 AI coding agent 的团队、要拍板部署栈的技术负责人,这不是热闹,是预算和架构问题。

这次真正新增的,不是“又一款强模型”,而是三条线一起压向 agent 落地

Kimi K2.6 是这波里最硬的一张牌。已知信息很密:1T 参数 MoE、32B active parameters、384 experts、MLA attention、256K context、原生多模态、INT4 量化。更重要的是,它不是只扔一个权重包就算完事,而是 day-0 接入了 vLLM、OpenRouter、Cloudflare Workers AI 这些推理和分发栈。

这比“模型更强了”多走了一步。它在告诉开发者:拿去接,拿去跑,别只拿去测。

Moonshot 最强调的也不是常规 benchmark,而是系统能力:

  • 4000+ 次工具调用
  • 12+ 小时连续运行
  • 300 个并行子代理
  • HLE w/ tools 54.0
  • SWE-Bench Pro 58.6
  • Math Vision w/ python 93.2

这些数字不代表它已经在所有真实生产环境里赢了,但至少把评价标准往前推了一格:不是“答得像不像”,而是“任务跑不跑得完”。

Qwen3.6-Max-Preview 则补上了另一块。它还只是预览版,开放程度也和开源权重的 Kimi 不是一回事,这个边界要讲清。但它释放的信息很明确:阿里在把 agentic coding、世界知识、指令遵循往前推,社区讨论里也更常提到它的长推理稳定性,Code Arena 排名给了它一些侧面支持。

换句话说,阿里没有偏题。主战场已经不是聊天演示,而是让模型在 coding 和 agent 任务里更像一个能干活的后端。

Hermes Agent 看起来更像框架新闻,但我反而觉得它很关键。GitHub 超过 100K stars 当然不能直接等于生产可用,可它暴露出来的方法论更值钱:

  • stateless ephemeral units
  • LLM-driven replanning
  • dynamic context injection
  • 与 Ollama、Copilot CLI 等工具接入加深

这说明一件很朴素的事:行业正在放弃“一条超长 prompt 包打天下”的幻觉,转向把 agent 当成一个会拆分、会调度、会回滚、会修正的系统。

谁最受影响:不是普通用户,是两类正在花钱的人

第一类,是正在做 AI coding agent 的团队。

以前很多团队可以把失败归因于“模型还不够强”。现在这个借口开始失效。你如果手里已经有能打的模型,再加上现成推理栈和工具接入,agent 还是跑不稳,问题大概率不在权重,而在系统设计偷懒:上下文乱塞、工具治理缺位、失败后不会重试、状态管理一塌糊涂。

第二类,是决定部署栈的技术负责人。

他们要面对的选择更具体了:

  • 继续买 Anthropic/OpenAI 的闭源后端,图省事
  • 还是转向 Kimi/Qwen 这类更可控、可私有部署或更易替代的路线
  • 预算继续砸在“更强模型”,还是补 runtime、observability、tool governance

这类决策过去还能拖。现在不太行。因为差距越来越不只是模型智商,而是你有没有一整套能上线的执行系统。

榜单没死,但税口已经挪了

“天下熙熙,皆为利来。”大模型公司嘴上谈能力,手上抢的其实是税口。

谁控制运行时,谁掌握记忆,谁先接入工具链,谁更容易形成锁定。榜单是广告牌,运行时才是收费站。

所以我看 Kimi K2.6,最有分量的不是 1T MoE 这几个字,而是它把开源权重、低比特量化、长时执行、首发接入一起打包。它不只是想证明“我能做大模型”,而是想往“我能成为你的后端默认项”上走。

我看 Qwen3.6-Max-Preview,也不会只盯着它在个别题上多会解一道数学题。真正该看的是,阿里能不能把预览版的 agentic coding 能力,稳定落成一个让团队愿意长期依赖的服务。预览版最怕两件事:演示很猛,落地很飘;发布很快,行为不稳。

Hermes Agent 则把另一个现实挑明了:能力正在从模型权重外溢到编排层。谁把 orchestration 做成基础设施,谁就更接近下一轮护城河。LangChain 近来反复讲 runtime,不是因为 prompt engineering 突然不重要了,而是因为大家终于承认,agent 上生产之后,难题根本不在“会不会答”,而在“能不能跑”。

这像早年的操作系统和云平台战争。CPU 很重要,但真正长期收税的,是操作系统、开发框架、分发入口和云控制面。今天的大模型并非完全一样,但权力结构相似。模型决定你能不能上桌,运行时决定谁来结账。

这波中国团队很强,但别吹成“大结局”

我不买账那种“全面反超”的兴奋叙事。现在更稳妥的说法是:在 coding/agent 这条线上,中国团队的推进速度很快,开源或半开源的出牌方式也更凶,部分点位已经压到了前排。

但限制同样清楚。

Kimi K2.6 的很多 benchmark 和长时执行叙事,当前主要还是官方口径。Qwen3.6-Max-Preview 的稳定性,也还需要更多独立验证。Hermes 的热度则和商业可靠性不是一回事,长时任务里的小故障累积、权限治理、成本失控、观测难题,哪一个都能把漂亮 demo 变成事故现场。

所以眼下最值得盯的,不是谁又在榜单上多拿了几分,而是三件更硬的事:

  • 谁能把 agent runtime 做成事实标准
  • 谁能把记忆系统和工具治理做成高迁移成本能力
  • 谁能持续拿到 day-0 接入,进入 vLLM、OpenRouter、Workers AI 这类入口

这三件事里,前两件决定能不能跑,后一件决定能不能被大规模试用。历史上很多技术不是输在能力,而是输在入口。其兴也勃焉,其亡也忽焉;没有分发和控制面的强模型,常常热得快,凉得也快。

我更在意的是,这会逼着行业把话说实在点。很多团队过去把 agent 做不好,怪模型;很多平台过去把榜单当遮羞布,拿一两个分数掩盖系统能力的空心化。现在没那么好糊弄了。模型越来越便宜,替代越来越快,真正稀缺的东西变成了工程纪律、运行时能力和组织执行。

一句难听但准确的话:火箭推力更大了,不代表飞控就自动合格。今天的大模型行业,最会表演的还是参数和榜单,最容易掉链子的却是运行时和编排。前者负责吸引融资,后者才决定客户能不能活着落地。