IBM Granite 4.1 发布时,最容易被拿来传播的是两个点:Apache 2.0 开源许可,小模型规格继续往前追。
但真正给这件事泼冷水的,是一只骑自行车的鹈鹕。
Simon Willison 用 Unsloth 发布的 Granite 4.1 3B GGUF 量化版本做了个小实验:同一个提示词,让 21 个不同大小的量化文件生成 SVG——“Generate an SVG of a pelican riding a bicycle”。文件从 1.2GB 到 6.34GB,全部加起来 51.3GB。
结果很尴尬:看不出文件越大质量越好的规律,整体都很糟。最小版本反而画出了一点像自行车的东西,最大版本只是稍微沾了点鹈鹕的边。
这不是正式 benchmark,也不能一棍子打死 Granite 4.1。它补上的信息更具体:发布稿能告诉你模型尺寸、许可、训练路线和性能叙事;这个外部实测告诉你,到了本地量化、具体任务、可用输出这一层,故事会变硬。
Granite 4.1 发生了什么
IBM 发布 Granite 4.1 系列 LLM,采用 Apache 2.0 许可,覆盖 3B、8B、30B 尺寸。Granite 团队也公开了训练过程说明。
这条线本来就清楚:IBM 想把 Granite 做成企业和开发者都敢用的小模型底座。许可宽松,尺寸克制,强调可部署、可微调、可控成本。
关键信息压一下:
| 项目 | 信息 |
|---|---|
| 模型家族 | IBM Granite 4.1 |
| 许可 | Apache 2.0 |
| 尺寸 | 3B、8B、30B |
| 外部测试对象 | Unsloth 的 Granite 4.1 3B GGUF 量化版本 |
| 量化文件数量 | 21 个 |
| 文件大小 | 1.2GB 到 6.34GB,总计 51.3GB |
| 测试任务 | 生成“鹈鹕骑自行车”的 SVG |
| 观察结果 | 质量与文件大小没有稳定对应关系,输出整体较差 |
旧的主线仍然成立:小模型竞争已经不只是参数竞赛,而是工程账。谁能用更低成本、更少显存、更简单部署,完成足够稳定的任务,谁就有实际价值。
但这次 3B SVG 测试把这条判断缩窄了一点:工程账不能只算“能不能跑”。还得算“跑出来能不能用”。
为什么这只鹈鹕很重要
SVG 生成是个很好的刺刀测试。
它看起来像代码任务。模型只要输出 <circle>、<path>、polygon,表面上就像会写。可实际难点不在语法,而在结构。
它要知道鹈鹕是什么样,自行车有哪些部件,还要把鸟、车轮、车架、骑乘姿态放到同一个空间里。这里考的是视觉常识、空间关系、结构规划和代码表达的混合能力。
小模型很容易在这种任务里露馅。
它可能学会了 SVG 的壳,没学会图形的骨。它能把 token 排成答案的样子,却未必真的理解答案要指向什么东西。
这和很多企业场景很像。PPT 里说“支持代码生成”“支持结构化输出”“支持本地部署”,听起来都对。可一到现场,问题会变成:
- 输出能不能稳定解析?
- 错误是不是可控?
- 换一个提示词会不会崩?
- 量化后是不是还保留关键能力?
- 小模型是不是只在演示任务里好看?
发布参数回答不了这些问题。榜单也只能回答一部分。
真正的答案在任务现场。
谁最该在意这件事
普通用户不用太在意这只鹈鹕。你不会每天让 3B 模型画 SVG 鸟骑车。
该在意的是两类人。
一类是本地部署玩家和独立开发者。GGUF、量化、小模型、低显存,这些东西确实降低了门槛。但门槛降低不是能力提高。下载一个 1.2GB 或 6.34GB 的文件,只说明你把模型搬到了机器上,不说明它已经变成可靠产品。
另一类是企业技术负责人。Granite 4.1 的 Apache 2.0 许可很有价值。企业敢不敢用开源模型,许可不是小事。能否二次分发,能否商用,能否少踩法务坑,都会影响采购和落地。
但许可解决的是使用权,不解决交付质量。
企业最容易犯的错误,是把“模型可用”理解成“业务可用”。中间差着评测、监控、回退、人工校验、提示词治理、数据边界和错误成本。少一个环节,省下来的推理成本可能会从售后、合规、返工里加倍吐出来。
“天下熙熙,皆为利来。”开源生态也一样。厂商讲开放,社区做量化,开发者追轻量,企业要降本。每个人都有合理动机。问题在于,最后承担输出错误的人,往往不是喊口号的人。
小模型不是小号大模型
我仍然看好 Granite 4.1 这类模型的方向。
理由很简单:企业不可能把所有任务都丢给巨型模型。很多场景不需要最强大脑,只需要便宜、稳定、可控、可私有化。文本分类、摘要、抽取、简单问答、代码辅助、内部流程自动化,小模型有位置。
Granite 4.1 8B 能追上更大 MoE 的部分能力,这种进展有实际意义。小模型如果能用更低成本打到“够用线”,就是对云端大模型高价路线的压力。
但别把小模型当小号大模型。
大模型能力缩小一圈,不会自动变成好产品。量化文件缩小一圈,也不会自动保留你关心的能力。模型尺寸、参数量、文件大小,只是粗指标。它们能帮你筛选,不能替你验收。
这只鹈鹕的荒诞感就在这里:最大文件没有稳赢,最小文件偶尔撞出一点像自行车的结果。它至少说明,在这个任务上,体积不是能力的可靠代理。
这对小模型竞争是个提醒。
真正的分水岭不是“我有 3B、8B、30B”。也不是“我能跑在本地”。分水岭是:你能不能在某个明确任务里,以可解释的成本,稳定交付可接受结果。
小模型的胜利不会来自万能叙事,只会来自边界清楚。
能做什么,不能做什么,量化后掉哪里,提示词换一下会不会塌,错误能不能被系统兜住。这些问题比发布页上的漂亮曲线更值钱。
接下来该看什么
Granite 4.1 后面要看的,不是再找一只更像鹈鹕的鹈鹕。
更该看三件事:
- 8B 在企业高频任务里是否稳定,比如抽取、摘要、RAG、代码补全;
- 3B 量化后在哪些任务上还能保留能力,在哪些任务上会断崖;
- IBM 和社区能不能给出更贴近生产环境的评测,而不是只靠通用榜单和演示样例。
历史上每一次基础设施普及,都会经历这种阶段。铁路铺出去,不等于货运马上高效;电力接进工厂,不等于生产组织自动升级;开源模型能下载,也不等于业务系统已经智能。
技术扩散的前半段,大家抢入口。后半段,大家补账。
Granite 4.1 的好处在于,它把入口做得更友好:许可开放,尺寸多,部署成本低。那只失败的鹈鹕提醒我们,账本还没合上。模型看着更轻,产品未必更实。
回到最初那只骑车的鸟。它不好笑在画得丑,而是把小模型叙事里最容易被省略的一格画了出来:世界不是 token 串,产品也不是模型文件。
能跑,只是开机。能用,才算交付。
