IBM Granite 4.1 开源之后：8B 追 32B 是好消息，3B 画不出鹈鹕才是冷水

核心摘要 Summary

IBM Granite 4.1 以 Apache 2.0 许可开源，提供 3B、8B、30B 等尺寸，继续把小模型竞争推向工程成本账。
Simon Willison 对 Granite 4.1 3B 的 21 个 GGUF 量化版本做了 SVG 生成测试，结果提醒开发者：模型能本地跑，不等于能在复杂任务里稳定交付。

IBM Granite 4.1 发布时，最容易被拿来传播的是两个点：Apache 2.0 开源许可，小模型规格继续往前追。

但真正给这件事泼冷水的，是一只骑自行车的鹈鹕。

Simon Willison 用 Unsloth 发布的 Granite 4.1 3B GGUF 量化版本做了个小实验：同一个提示词，让 21 个不同大小的量化文件生成 SVG——“Generate an SVG of a pelican riding a bicycle”。文件从 1.2GB 到 6.34GB，全部加起来 51.3GB。

结果很尴尬：看不出文件越大质量越好的规律，整体都很糟。最小版本反而画出了一点像自行车的东西，最大版本只是稍微沾了点鹈鹕的边。

这不是正式 benchmark，也不能一棍子打死 Granite 4.1。它补上的信息更具体：发布稿能告诉你模型尺寸、许可、训练路线和性能叙事；这个外部实测告诉你，到了本地量化、具体任务、可用输出这一层，故事会变硬。

Granite 4.1 发生了什么

IBM 发布 Granite 4.1 系列 LLM，采用 Apache 2.0 许可，覆盖 3B、8B、30B 尺寸。Granite 团队也公开了训练过程说明。

这条线本来就清楚：IBM 想把 Granite 做成企业和开发者都敢用的小模型底座。许可宽松，尺寸克制，强调可部署、可微调、可控成本。

关键信息压一下：

项目	信息
模型家族	IBM Granite 4.1
许可	Apache 2.0
尺寸	3B、8B、30B
外部测试对象	Unsloth 的 Granite 4.1 3B GGUF 量化版本
量化文件数量	21 个
文件大小	1.2GB 到 6.34GB，总计 51.3GB
测试任务	生成“鹈鹕骑自行车”的 SVG
观察结果	质量与文件大小没有稳定对应关系，输出整体较差

旧的主线仍然成立：小模型竞争已经不只是参数竞赛，而是工程账。谁能用更低成本、更少显存、更简单部署，完成足够稳定的任务，谁就有实际价值。

但这次 3B SVG 测试把这条判断缩窄了一点：工程账不能只算“能不能跑”。还得算“跑出来能不能用”。

为什么这只鹈鹕很重要

SVG 生成是个很好的刺刀测试。

它看起来像代码任务。模型只要输出 <circle>、<path>、polygon，表面上就像会写。可实际难点不在语法，而在结构。

它要知道鹈鹕是什么样，自行车有哪些部件，还要把鸟、车轮、车架、骑乘姿态放到同一个空间里。这里考的是视觉常识、空间关系、结构规划和代码表达的混合能力。

小模型很容易在这种任务里露馅。

它可能学会了 SVG 的壳，没学会图形的骨。它能把 token 排成答案的样子，却未必真的理解答案要指向什么东西。

这和很多企业场景很像。PPT 里说“支持代码生成”“支持结构化输出”“支持本地部署”，听起来都对。可一到现场，问题会变成：

输出能不能稳定解析？
错误是不是可控？
换一个提示词会不会崩？
量化后是不是还保留关键能力？
小模型是不是只在演示任务里好看？

发布参数回答不了这些问题。榜单也只能回答一部分。

真正的答案在任务现场。

谁最该在意这件事

普通用户不用太在意这只鹈鹕。你不会每天让 3B 模型画 SVG 鸟骑车。

该在意的是两类人。

一类是本地部署玩家和独立开发者。GGUF、量化、小模型、低显存，这些东西确实降低了门槛。但门槛降低不是能力提高。下载一个 1.2GB 或 6.34GB 的文件，只说明你把模型搬到了机器上，不说明它已经变成可靠产品。

另一类是企业技术负责人。Granite 4.1 的 Apache 2.0 许可很有价值。企业敢不敢用开源模型，许可不是小事。能否二次分发，能否商用，能否少踩法务坑，都会影响采购和落地。

但许可解决的是使用权，不解决交付质量。

企业最容易犯的错误，是把“模型可用”理解成“业务可用”。中间差着评测、监控、回退、人工校验、提示词治理、数据边界和错误成本。少一个环节，省下来的推理成本可能会从售后、合规、返工里加倍吐出来。

“天下熙熙，皆为利来。”开源生态也一样。厂商讲开放，社区做量化，开发者追轻量，企业要降本。每个人都有合理动机。问题在于，最后承担输出错误的人，往往不是喊口号的人。

小模型不是小号大模型

我仍然看好 Granite 4.1 这类模型的方向。

理由很简单：企业不可能把所有任务都丢给巨型模型。很多场景不需要最强大脑，只需要便宜、稳定、可控、可私有化。文本分类、摘要、抽取、简单问答、代码辅助、内部流程自动化，小模型有位置。

Granite 4.1 8B 能追上更大 MoE 的部分能力，这种进展有实际意义。小模型如果能用更低成本打到“够用线”，就是对云端大模型高价路线的压力。

但别把小模型当小号大模型。

大模型能力缩小一圈，不会自动变成好产品。量化文件缩小一圈，也不会自动保留你关心的能力。模型尺寸、参数量、文件大小，只是粗指标。它们能帮你筛选，不能替你验收。

这只鹈鹕的荒诞感就在这里：最大文件没有稳赢，最小文件偶尔撞出一点像自行车的结果。它至少说明，在这个任务上，体积不是能力的可靠代理。

这对小模型竞争是个提醒。

真正的分水岭不是“我有 3B、8B、30B”。也不是“我能跑在本地”。分水岭是：你能不能在某个明确任务里，以可解释的成本，稳定交付可接受结果。

小模型的胜利不会来自万能叙事，只会来自边界清楚。

能做什么，不能做什么，量化后掉哪里，提示词换一下会不会塌，错误能不能被系统兜住。这些问题比发布页上的漂亮曲线更值钱。

接下来该看什么

Granite 4.1 后面要看的，不是再找一只更像鹈鹕的鹈鹕。

更该看三件事：

8B 在企业高频任务里是否稳定，比如抽取、摘要、RAG、代码补全；
3B 量化后在哪些任务上还能保留能力，在哪些任务上会断崖；
IBM 和社区能不能给出更贴近生产环境的评测，而不是只靠通用榜单和演示样例。

历史上每一次基础设施普及，都会经历这种阶段。铁路铺出去，不等于货运马上高效；电力接进工厂，不等于生产组织自动升级；开源模型能下载，也不等于业务系统已经智能。

技术扩散的前半段，大家抢入口。后半段，大家补账。

Granite 4.1 的好处在于，它把入口做得更友好：许可开放，尺寸多，部署成本低。那只失败的鹈鹕提醒我们，账本还没合上。模型看着更轻，产品未必更实。

回到最初那只骑车的鸟。它不好笑在画得丑，而是把小模型叙事里最容易被省略的一格画了出来：世界不是 token 串，产品也不是模型文件。

能跑，只是开机。能用，才算交付。

IBM Granite 4.1 开源之后：8B 追 32B 是好消息，3B 画不出鹈鹕才是冷水

Granite 4.1

开源入口

尺寸覆盖

工程账

鹈鹕测试

体积失效

结构短板

落地风险

开发者

企业

小模型边界

适用场景

量化折损

后续变量

8B 稳定性

3B 边界

Granite 4.1 发生了什么

为什么这只鹈鹕很重要

谁最该在意这件事

小模型不是小号大模型

接下来该看什么