一台高端 MacBook Max M5 128GB,跑 Qwen 3.6 27B dense,GGUF 8-bit 量化,开 MTP,64k context。实测大约 32 tok/s,占用约 42GB RAM。

这个数字不炸裂。更快的 Qwen 3.6 35B A3B MoE 能到约 105 tok/s。但反常点就在这里:原作者反而更推荐慢得多的 27B,因为它在代码和写作任务里更稳。

本地大模型过去常见的问题是“能跑,但不值得跑”。这次的信号不一样。它至少说明,在高端个人设备上,本地模型开始接近一条日用线。不是行业共识,只是一位开发者的实测判断;但这个判断有现实分量。

实测边界:快的是 35B A3B,稳的是 27B

这次重点不是 Qwen 3.6 只有一个版本,而是两条路线放在一起看。

对象实测结果关键取舍
Qwen 3.6 35B A3B MoE约 105 tok/s很快,但指令遵循和输出质量不如 27B 稳
Qwen 3.6 27B dense + MTP约 32 tok/s,约 42GB RAM慢很多,但更像可工作的本地助手
运行方式llama.cpp、GGUF 8-bit、MTP、64k context已经能接入开发者工作流
接入场景OpenCode、本地聊天、代码生成不止是命令行玩具

原作者测了几类任务:受限写作、量子物理诗、OpenCode 一次生成六边形扫雷、蜡烛店 landing page。

最能说明问题的是代码任务。27B 按要求生成了 Node package。35B A3B 更快,却把任务做成了单个 index.html。

这就是本地模型里最容易被 tokens/s 掩盖的事实:开发任务不是打字比赛。少返工一次,比多吐几十个 token 更值钱。

但边界也要说清。这里的“可用”,不是普通笔记本随便跑。原文条件是高端 MacBook Max M5 128GB,或类似高端 RTX 设备。硬件门票摆在那里。

27B 为什么更值得开发者认真看

35B A3B 的速度很诱人。MoE 路线的优势也清楚:激活参数少,吞吐更好,交互更轻。

问题在于,AI coding 的核心成本不在等待输出,而在改错、补洞、重跑。模型一次写偏,后面省下的速度很快会被返工吃掉。

27B dense 的价值,恰好在这个缝里。它不是最大,不是最快,但在高端个人设备上,把质量、内存和速度压到一个还能接受的位置。古人说“过犹不及”,放在本地模型上很贴切:太小像玩具,太大像机房项目,27B 这档开始有个人开发者的现实意义。

对几类人,动作会不一样。

读者类型这次意味着什么更现实的动作
本地 LLM 开发者27B dense 值得进入日常候选池用 llama.cpp / GGUF 跑一轮自己的任务,而不是只看榜单
AI coding 用户质量可能比吞吐更关键把 OpenCode 等本地链路接起来,重点测复杂指令遵循
隐私、成本、可控性敏感团队本地部署开始像可选项先做小规模 PoC,不急着替换云端 API

我不太买账的是把它吹成“本地 ChatGPT 替代品”。证据还不够。单次实测也不能推出行业结论。

更准确的说法是:如果你的任务包含代码、内部文档、敏感数据,且你已经有足够硬件,Qwen 3.6 27B 值得被认真测试。不是因为它炫,而是因为它可能已经够用。

本地模型的账,最后会算到控制权上

本地模型的价值,不只是省 API 钱。

云端 API 有三笔隐性账。价格可能依赖补贴。模型可能下线或改版。数据必须交给远端服务,可能是美国云,也可能是中国云。

本地模型给的是另一种确定性:可控、可微调、可离线,敏感数据不用出门。它未必更聪明,但它不容易突然换接口、改规则、收回某个模型。

当然,开源权重也不是乌托邦。权力不会凭空消失,只会换位置。以前卡你的是 API 平台;以后可能是显存、驱动、量化格式、许可证和硬件供应。

这有点像早期 PC 冲击大型机。不完全一样,但结构相似:算力从中心向边缘流动,个人和小团队拿到更多控制权;接着,新硬件、新工具链、新生态又长出新的门槛。

所以接下来不用盯着一句“本地模型能不能取代云端”。这个问题太粗。

更该看三件事:

  • 27B 这档模型在真实代码仓库里能不能稳定少犯错;
  • 8-bit 量化、MTP、长上下文在长时间运行里是否稳定;
  • 高端个人设备的成本、功耗和维护麻烦,能不能被隐私与可控性抵消。

如果这三件事站得住,本地模型就不再只是爱好者折腾。它会变成团队技术栈里的一个正常选项。

Qwen 3.6 27B 的意义也在这里。它没有证明本地模型全面成熟。它只是把那条线往前推了一截:从“能跑起来”,推到“可能值得每天跑”。