Google 把一项曾经短暂露面的 Gemini Diffusion 研究,包装成新的开放权重 Gemma 模型发布。模型名为 google/diffusiongemma-26B-A4B-it,已在 Hugging Face 提供权重,许可为 Apache 2;NVIDIA 也在 NIM 云 API 上免费托管该模型。
这件事真正有分量的地方,不是 Google 又发了一个 Gemma 变体,而是扩散式文本生成从“实验预览”向“开发者能实际接入”的方向迈了一步。此前 Gemini Diffusion 预览曾被测到 857 tokens/second,但之后没有更多公开动作;这一次,至少有了权重、许可和云端 API 三个可验证入口。
从 Gemini Diffusion 预览到开放权重 Gemma
DiffusionGemma 延续的是扩散模型用于文本生成的路线。与常见自回归语言模型逐 token 向后生成不同,扩散式文本生成更接近“多轮修订”或“逐步去噪”的机制。它的吸引力在速度:如果能稳定跑出高吞吐,实时应用、批量生成、交互式工具都会受益。
这次发布的几个事实锚点很清楚:
| 项目 | 信息 | 对开发者的影响 |
|---|---|---|
| 模型 | google/diffusiongemma-26B-A4B-it | 可在 Hugging Face 获取权重 |
| 许可 | 开放权重,Apache 2 | 商业使用门槛相对低,但不等于训练数据开源 |
| 云端入口 | NVIDIA NIM API 免费托管中 | 便于快速测试,但免费状态不应默认视为长期承诺 |
| 历史参照 | Gemini Diffusion 预览曾测得 857 tokens/s | 说明 Google 曾验证过高速文本生成潜力 |
这里要分清两个概念:开放权重不是完整开源。开发者能拿到模型权重并按 Apache 2 使用,并不意味着能看到训练数据、完整训练流程或所有评测细节。对企业团队来说,这已经足够进入 PoC;对研究复现来说,还不能算全套材料。
速度证据可观,但还不是官方稳定指标
独立开发者 Simon Willison 使用 NVIDIA NIM API 调用 DiffusionGemma,生成了一个“骑自行车的鹈鹕”SVG/图像描述任务。该请求用 4.4 秒返回 2,409 tokens,折算约至少 500 tokens/second。
这个数字值得记录,但不能直接写成官方稳定性能。单次 API 调用会受到提示词、输出长度、服务负载、计时方式、网络延迟等因素影响。更严谨的结论应是:DiffusionGemma 在公开可访问环境中展示了很高吞吐的可能性,而非已经证明所有场景都能长期保持这一速度。
横向看,主流自回归 LLM 的竞争长期围绕上下文长度、推理能力、工具调用和成本展开。DiffusionGemma 把“生成速度”重新推到台前。它未必会直接替代通用聊天模型,但在代码补全、批量文案、结构化草稿、低延迟 UI 等任务里,高 tokens/s 可能比多一点抽象推理能力更实用。
受影响的是想压低延迟和成本的开发团队
最该关注这次发布的,不是普通聊天机器人用户,而是两类人:做生成式 AI 应用的开发者,以及评估本地或云端部署方案的技术决策者。
如果团队正在为一个产品选择模型,DiffusionGemma 给了一个现实动作:先用 NVIDIA NIM 免费 API 做延迟和输出质量测试,再决定是否下载权重进入自有环境评估。Apache 2 也降低了法务和商业使用的不确定性,至少比只提供封闭 API 的模型更容易纳入企业技术选型表。
但真正的变量还没有完全揭开。模型质量是否能覆盖复杂推理?长上下文表现如何?本地部署需要什么硬件配置?NIM 免费托管会持续多久?这些问题会决定它是一个漂亮的技术样本,还是能进入生产环境的工具。
目前最稳妥的判断是:DiffusionGemma 把高速扩散式文本生成推进到了“可下载、可调用、可比较”的阶段。它还不是路线胜利的终局证据,却已经足够让开发者把扩散式 LLM 放进下一轮模型评测清单。
