一台高端 MacBook Max M5 128GB,跑 Qwen 3.6 27B dense,GGUF 8-bit 量化,开 MTP,64k context。实测大约 32 tok/s,占用约 42GB RAM。
这个数字不炸裂。更快的 Qwen 3.6 35B A3B MoE 能到约 105 tok/s。但反常点就在这里:原作者反而更推荐慢得多的 27B,因为它在代码和写作任务里更稳。
本地大模型过去常见的问题是“能跑,但不值得跑”。这次的信号不一样。它至少说明,在高端个人设备上,本地模型开始接近一条日用线。不是行业共识,只是一位开发者的实测判断;但这个判断有现实分量。
实测边界:快的是 35B A3B,稳的是 27B
这次重点不是 Qwen 3.6 只有一个版本,而是两条路线放在一起看。
| 对象 | 实测结果 | 关键取舍 |
|---|---|---|
| Qwen 3.6 35B A3B MoE | 约 105 tok/s | 很快,但指令遵循和输出质量不如 27B 稳 |
| Qwen 3.6 27B dense + MTP | 约 32 tok/s,约 42GB RAM | 慢很多,但更像可工作的本地助手 |
| 运行方式 | llama.cpp、GGUF 8-bit、MTP、64k context | 已经能接入开发者工作流 |
| 接入场景 | OpenCode、本地聊天、代码生成 | 不止是命令行玩具 |
原作者测了几类任务:受限写作、量子物理诗、OpenCode 一次生成六边形扫雷、蜡烛店 landing page。
最能说明问题的是代码任务。27B 按要求生成了 Node package。35B A3B 更快,却把任务做成了单个 index.html。
这就是本地模型里最容易被 tokens/s 掩盖的事实:开发任务不是打字比赛。少返工一次,比多吐几十个 token 更值钱。
但边界也要说清。这里的“可用”,不是普通笔记本随便跑。原文条件是高端 MacBook Max M5 128GB,或类似高端 RTX 设备。硬件门票摆在那里。
27B 为什么更值得开发者认真看
35B A3B 的速度很诱人。MoE 路线的优势也清楚:激活参数少,吞吐更好,交互更轻。
问题在于,AI coding 的核心成本不在等待输出,而在改错、补洞、重跑。模型一次写偏,后面省下的速度很快会被返工吃掉。
27B dense 的价值,恰好在这个缝里。它不是最大,不是最快,但在高端个人设备上,把质量、内存和速度压到一个还能接受的位置。古人说“过犹不及”,放在本地模型上很贴切:太小像玩具,太大像机房项目,27B 这档开始有个人开发者的现实意义。
对几类人,动作会不一样。
| 读者类型 | 这次意味着什么 | 更现实的动作 |
|---|---|---|
| 本地 LLM 开发者 | 27B dense 值得进入日常候选池 | 用 llama.cpp / GGUF 跑一轮自己的任务,而不是只看榜单 |
| AI coding 用户 | 质量可能比吞吐更关键 | 把 OpenCode 等本地链路接起来,重点测复杂指令遵循 |
| 隐私、成本、可控性敏感团队 | 本地部署开始像可选项 | 先做小规模 PoC,不急着替换云端 API |
我不太买账的是把它吹成“本地 ChatGPT 替代品”。证据还不够。单次实测也不能推出行业结论。
更准确的说法是:如果你的任务包含代码、内部文档、敏感数据,且你已经有足够硬件,Qwen 3.6 27B 值得被认真测试。不是因为它炫,而是因为它可能已经够用。
本地模型的账,最后会算到控制权上
本地模型的价值,不只是省 API 钱。
云端 API 有三笔隐性账。价格可能依赖补贴。模型可能下线或改版。数据必须交给远端服务,可能是美国云,也可能是中国云。
本地模型给的是另一种确定性:可控、可微调、可离线,敏感数据不用出门。它未必更聪明,但它不容易突然换接口、改规则、收回某个模型。
当然,开源权重也不是乌托邦。权力不会凭空消失,只会换位置。以前卡你的是 API 平台;以后可能是显存、驱动、量化格式、许可证和硬件供应。
这有点像早期 PC 冲击大型机。不完全一样,但结构相似:算力从中心向边缘流动,个人和小团队拿到更多控制权;接着,新硬件、新工具链、新生态又长出新的门槛。
所以接下来不用盯着一句“本地模型能不能取代云端”。这个问题太粗。
更该看三件事:
- 27B 这档模型在真实代码仓库里能不能稳定少犯错;
- 8-bit 量化、MTP、长上下文在长时间运行里是否稳定;
- 高端个人设备的成本、功耗和维护麻烦,能不能被隐私与可控性抵消。
如果这三件事站得住,本地模型就不再只是爱好者折腾。它会变成团队技术栈里的一个正常选项。
Qwen 3.6 27B 的意义也在这里。它没有证明本地模型全面成熟。它只是把那条线往前推了一截:从“能跑起来”,推到“可能值得每天跑”。
