Google 开放 DiffusionGemma：扩散式文本生成从演示走向可调用模型

核心摘要 Summary

Google 将此前短暂露面的 Gemini Diffusion 研究，以开放权重 Gemma 模型 DiffusionGemma-26B-A4B-it 形式发布，并采用 Apache 2 许可。
它的重要性不在于又多了一个大模型，而在于高速扩散式文本生成第一次更接近开发者可下载、可调用、可评测的形态。

内容导图 Mind Map

DiffusionGemma

扩散文本生成可调用

开放发布

权重与许可落地

Apache 2

商业门槛降低

NIM API

云端可快速测试

核心变化

从演示走向评测

开放权重

不等于完整开源

速度卖点

高吞吐重新前置

实测样本

约五百 tokens 每秒

证据边界

非官方稳定指标

受益对象

低延迟团队优先

应用场景

补全草稿更适配

评估路径

先 API 后本地

后续变量

生产可用仍待验证

能力边界

推理与长上下文待测

部署成本

硬件与免费期未明

Google 把一项曾经短暂露面的 Gemini Diffusion 研究，包装成新的开放权重 Gemma 模型发布。模型名为 google/diffusiongemma-26B-A4B-it，已在 Hugging Face 提供权重，许可为 Apache 2；NVIDIA 也在 NIM 云 API 上免费托管该模型。

这件事真正有分量的地方，不是 Google 又发了一个 Gemma 变体，而是扩散式文本生成从“实验预览”向“开发者能实际接入”的方向迈了一步。此前 Gemini Diffusion 预览曾被测到 857 tokens/second，但之后没有更多公开动作；这一次，至少有了权重、许可和云端 API 三个可验证入口。

从 Gemini Diffusion 预览到开放权重 Gemma

DiffusionGemma 延续的是扩散模型用于文本生成的路线。与常见自回归语言模型逐 token 向后生成不同，扩散式文本生成更接近“多轮修订”或“逐步去噪”的机制。它的吸引力在速度：如果能稳定跑出高吞吐，实时应用、批量生成、交互式工具都会受益。

这次发布的几个事实锚点很清楚：

项目	信息	对开发者的影响
模型	`google/diffusiongemma-26B-A4B-it`	可在 Hugging Face 获取权重
许可	开放权重，Apache 2	商业使用门槛相对低，但不等于训练数据开源
云端入口	NVIDIA NIM API 免费托管中	便于快速测试，但免费状态不应默认视为长期承诺
历史参照	Gemini Diffusion 预览曾测得 857 tokens/s	说明 Google 曾验证过高速文本生成潜力

这里要分清两个概念：开放权重不是完整开源。开发者能拿到模型权重并按 Apache 2 使用，并不意味着能看到训练数据、完整训练流程或所有评测细节。对企业团队来说，这已经足够进入 PoC；对研究复现来说，还不能算全套材料。

速度证据可观，但还不是官方稳定指标

独立开发者 Simon Willison 使用 NVIDIA NIM API 调用 DiffusionGemma，生成了一个“骑自行车的鹈鹕”SVG/图像描述任务。该请求用 4.4 秒返回 2,409 tokens，折算约至少 500 tokens/second。

这个数字值得记录，但不能直接写成官方稳定性能。单次 API 调用会受到提示词、输出长度、服务负载、计时方式、网络延迟等因素影响。更严谨的结论应是：DiffusionGemma 在公开可访问环境中展示了很高吞吐的可能性，而非已经证明所有场景都能长期保持这一速度。

横向看，主流自回归 LLM 的竞争长期围绕上下文长度、推理能力、工具调用和成本展开。DiffusionGemma 把“生成速度”重新推到台前。它未必会直接替代通用聊天模型，但在代码补全、批量文案、结构化草稿、低延迟 UI 等任务里，高 tokens/s 可能比多一点抽象推理能力更实用。

受影响的是想压低延迟和成本的开发团队

最该关注这次发布的，不是普通聊天机器人用户，而是两类人：做生成式 AI 应用的开发者，以及评估本地或云端部署方案的技术决策者。

如果团队正在为一个产品选择模型，DiffusionGemma 给了一个现实动作：先用 NVIDIA NIM 免费 API 做延迟和输出质量测试，再决定是否下载权重进入自有环境评估。Apache 2 也降低了法务和商业使用的不确定性，至少比只提供封闭 API 的模型更容易纳入企业技术选型表。

但真正的变量还没有完全揭开。模型质量是否能覆盖复杂推理？长上下文表现如何？本地部署需要什么硬件配置？NIM 免费托管会持续多久？这些问题会决定它是一个漂亮的技术样本，还是能进入生产环境的工具。

目前最稳妥的判断是：DiffusionGemma 把高速扩散式文本生成推进到了“可下载、可调用、可比较”的阶段。它还不是路线胜利的终局证据，却已经足够让开发者把扩散式 LLM 放进下一轮模型评测清单。

锐评 Commentary

好模型不怕试，怕只会演示。DiffusionGemma 这一步，胜在把牌摊到桌上。

DiffusionGemma扩散式文本生成GoogleGemmaGemini Diffusion开放权重模型Hugging FaceNVIDIA NIMApache 2自回归语言模型