IBM Granite 4.1 发布时,最容易被拿来传播的是两个点:Apache 2.0 开源许可,小模型规格继续往前追。

但真正给这件事泼冷水的,是一只骑自行车的鹈鹕。

Simon Willison 用 Unsloth 发布的 Granite 4.1 3B GGUF 量化版本做了个小实验:同一个提示词,让 21 个不同大小的量化文件生成 SVG——“Generate an SVG of a pelican riding a bicycle”。文件从 1.2GB 到 6.34GB,全部加起来 51.3GB。

结果很尴尬:看不出文件越大质量越好的规律,整体都很糟。最小版本反而画出了一点像自行车的东西,最大版本只是稍微沾了点鹈鹕的边。

这不是正式 benchmark,也不能一棍子打死 Granite 4.1。它补上的信息更具体:发布稿能告诉你模型尺寸、许可、训练路线和性能叙事;这个外部实测告诉你,到了本地量化、具体任务、可用输出这一层,故事会变硬。

Granite 4.1 发生了什么

IBM 发布 Granite 4.1 系列 LLM,采用 Apache 2.0 许可,覆盖 3B、8B、30B 尺寸。Granite 团队也公开了训练过程说明。

这条线本来就清楚:IBM 想把 Granite 做成企业和开发者都敢用的小模型底座。许可宽松,尺寸克制,强调可部署、可微调、可控成本。

关键信息压一下:

项目信息
模型家族IBM Granite 4.1
许可Apache 2.0
尺寸3B、8B、30B
外部测试对象Unsloth 的 Granite 4.1 3B GGUF 量化版本
量化文件数量21 个
文件大小1.2GB 到 6.34GB,总计 51.3GB
测试任务生成“鹈鹕骑自行车”的 SVG
观察结果质量与文件大小没有稳定对应关系,输出整体较差

旧的主线仍然成立:小模型竞争已经不只是参数竞赛,而是工程账。谁能用更低成本、更少显存、更简单部署,完成足够稳定的任务,谁就有实际价值。

但这次 3B SVG 测试把这条判断缩窄了一点:工程账不能只算“能不能跑”。还得算“跑出来能不能用”。

为什么这只鹈鹕很重要

SVG 生成是个很好的刺刀测试。

它看起来像代码任务。模型只要输出 <circle><path>polygon,表面上就像会写。可实际难点不在语法,而在结构。

它要知道鹈鹕是什么样,自行车有哪些部件,还要把鸟、车轮、车架、骑乘姿态放到同一个空间里。这里考的是视觉常识、空间关系、结构规划和代码表达的混合能力。

小模型很容易在这种任务里露馅。

它可能学会了 SVG 的壳,没学会图形的骨。它能把 token 排成答案的样子,却未必真的理解答案要指向什么东西。

这和很多企业场景很像。PPT 里说“支持代码生成”“支持结构化输出”“支持本地部署”,听起来都对。可一到现场,问题会变成:

  • 输出能不能稳定解析?
  • 错误是不是可控?
  • 换一个提示词会不会崩?
  • 量化后是不是还保留关键能力?
  • 小模型是不是只在演示任务里好看?

发布参数回答不了这些问题。榜单也只能回答一部分。

真正的答案在任务现场。

谁最该在意这件事

普通用户不用太在意这只鹈鹕。你不会每天让 3B 模型画 SVG 鸟骑车。

该在意的是两类人。

一类是本地部署玩家和独立开发者。GGUF、量化、小模型、低显存,这些东西确实降低了门槛。但门槛降低不是能力提高。下载一个 1.2GB 或 6.34GB 的文件,只说明你把模型搬到了机器上,不说明它已经变成可靠产品。

另一类是企业技术负责人。Granite 4.1 的 Apache 2.0 许可很有价值。企业敢不敢用开源模型,许可不是小事。能否二次分发,能否商用,能否少踩法务坑,都会影响采购和落地。

但许可解决的是使用权,不解决交付质量。

企业最容易犯的错误,是把“模型可用”理解成“业务可用”。中间差着评测、监控、回退、人工校验、提示词治理、数据边界和错误成本。少一个环节,省下来的推理成本可能会从售后、合规、返工里加倍吐出来。

“天下熙熙,皆为利来。”开源生态也一样。厂商讲开放,社区做量化,开发者追轻量,企业要降本。每个人都有合理动机。问题在于,最后承担输出错误的人,往往不是喊口号的人。

小模型不是小号大模型

我仍然看好 Granite 4.1 这类模型的方向。

理由很简单:企业不可能把所有任务都丢给巨型模型。很多场景不需要最强大脑,只需要便宜、稳定、可控、可私有化。文本分类、摘要、抽取、简单问答、代码辅助、内部流程自动化,小模型有位置。

Granite 4.1 8B 能追上更大 MoE 的部分能力,这种进展有实际意义。小模型如果能用更低成本打到“够用线”,就是对云端大模型高价路线的压力。

但别把小模型当小号大模型。

大模型能力缩小一圈,不会自动变成好产品。量化文件缩小一圈,也不会自动保留你关心的能力。模型尺寸、参数量、文件大小,只是粗指标。它们能帮你筛选,不能替你验收。

这只鹈鹕的荒诞感就在这里:最大文件没有稳赢,最小文件偶尔撞出一点像自行车的结果。它至少说明,在这个任务上,体积不是能力的可靠代理。

这对小模型竞争是个提醒。

真正的分水岭不是“我有 3B、8B、30B”。也不是“我能跑在本地”。分水岭是:你能不能在某个明确任务里,以可解释的成本,稳定交付可接受结果。

小模型的胜利不会来自万能叙事,只会来自边界清楚。

能做什么,不能做什么,量化后掉哪里,提示词换一下会不会塌,错误能不能被系统兜住。这些问题比发布页上的漂亮曲线更值钱。

接下来该看什么

Granite 4.1 后面要看的,不是再找一只更像鹈鹕的鹈鹕。

更该看三件事:

  • 8B 在企业高频任务里是否稳定,比如抽取、摘要、RAG、代码补全;
  • 3B 量化后在哪些任务上还能保留能力,在哪些任务上会断崖;
  • IBM 和社区能不能给出更贴近生产环境的评测,而不是只靠通用榜单和演示样例。

历史上每一次基础设施普及,都会经历这种阶段。铁路铺出去,不等于货运马上高效;电力接进工厂,不等于生产组织自动升级;开源模型能下载,也不等于业务系统已经智能。

技术扩散的前半段,大家抢入口。后半段,大家补账。

Granite 4.1 的好处在于,它把入口做得更友好:许可开放,尺寸多,部署成本低。那只失败的鹈鹕提醒我们,账本还没合上。模型看着更轻,产品未必更实。

回到最初那只骑车的鸟。它不好笑在画得丑,而是把小模型叙事里最容易被省略的一格画了出来:世界不是 token 串,产品也不是模型文件。

能跑,只是开机。能用,才算交付。