DiffusionGemma 提速最高 4 倍：适合本地交互，不是 Gemma 4 替代品

核心摘要 Summary

Google DeepMind 发布实验性开放模型 DiffusionGemma，用文本扩散方式并行生成文本，官方称在专用 GPU 和特定推理栈下最高可实现 4 倍提速。
它更像是给本地交互、低并发应用准备的速度型模型，不是 Gemma 4 的高质量生产替代品。
开发者该做的是小范围压测和场景拆分，而不是马上迁移主链路。

Google DeepMind 6 月 10 日发布 DiffusionGemma，最容易被记住的数字是：单张 NVIDIA H100 上超过 1000 tokens/s，RTX 5090 上超过 700 tokens/s，最高 4 倍推理提速。

但这个数字不能单独看。DiffusionGemma 不是 Gemma 4 的加速版，也不是把所有文本生成任务都变快 4 倍。它真正有意思的地方，是把文本生成从逐 token 排队，改成一块一块并行生成。

它改了什么：从逐 token 到 256 token 并行生成

传统自回归大语言模型像排队写字。前一个 token 出来，后一个 token 才能继续算。这种方式稳定、成熟，但在本地单卡、低 batch 场景里，GPU 经常吃不满。

DiffusionGemma 换了路线。它用文本扩散方式，一次并行生成 256 个 token 的文本块，再通过多轮迭代修正。简单说，不是一个字一个字往前推，而是先铺出一片，再反复改。

模型规格也给得比较明确：26B MoE，总参数 26B，推理时激活 3.8B 参数。许可是 Apache 2.0，对本地应用和商业试验都更友好。

维度	标准自回归模型	DiffusionGemma	我的判断
生成方式	从左到右逐 token 输出	256 token 文本块并行扩散生成	改的是解码路径，不是单纯堆参数
模型形态	视具体模型而定	26B MoE，激活 3.8B	对高端消费级 GPU 更有想象力
开放许可	视模型而定	Apache 2.0	方便开发者做本地集成和产品试验
官方速度锚点	依赖 batch、硬件和推理栈	H100 1000+ tokens/s，RTX 5090 700+ tokens/s	最高 4 倍不是全场景承诺
质量定位	Gemma 4 仍偏生产主力	整体低于标准 Gemma 4	不能拿来直接替换高质量输出链路

这个变化对代码补全、内联编辑、填空、Markdown 结构补齐更有意义。因为这些任务经常不是单纯往后续写，而是前后互相约束。

比如补一段代码，后面的括号、变量名、缩进，都会反过来影响前面的选择。纯从左到右当然能做，但未必最省力。DiffusionGemma 的路线，至少是在试另一把刀。

它快在哪里：本地、低并发、强交互

DiffusionGemma 的速度优势，有前提。

官方给出的条件集中在单加速器、低到中 batch、本地或低并发推理。它还依赖专用 GPU、量化和优化推理栈。DeepMind 提到可通过 MLX、vLLM、Hugging Face Transformers 使用，并与 NVIDIA 在 GeForce RTX 5090、4090、Hopper、Blackwell 以及 NVFP4 内核上做了优化。

这句话翻译成产品语言，就是：它更适合一个用户盯着屏幕等结果的场景。

做 IDE 插件、桌面写作工具、本地代码助手的人，可以把 DiffusionGemma 放进候选池。动作也很具体：不要先替换主模型，而是挑 2-3 个高频交互点压测，比如代码补全、局部改写、结构化填空。

这里的收益不是少花一半云账单，而是少等几百毫秒。对强交互工具来说，这几百毫秒很值钱。用户不会管模型架构，只会感觉光标后面的补全是跟手，还是慢半拍。

云服务商的算盘不一样。

高 QPS 场景下，自回归模型可以把大量请求合批，把硬件利用率拉起来。DiffusionGemma 的并行解码在这种架构里，优势会变小。考虑到它还有迭代修正过程，成本也可能不降反升。

所以这不是云端大规模推理的省钱答案。更准确地说，它解决的是单人单卡、低到中并发下的速度问题。

它不能替代什么：质量和生产稳定性

DeepMind 没有把话说满。高质量生产输出，官方仍建议使用标准 Gemma 4。

这点比 4 倍提速更重要。文本扩散在图像生成里已经很成熟，但语言不是图像。语言任务要同时处理事实一致性、长程推理、指令遵循和风格稳定。任何一项掉线，开发者都要用微调、重排序或后处理补账。

对技术决策者来说，比较现实的路线是分层使用。

场景	更适合的选择	原因
高质量问答、复杂推理、正式文案生成	Gemma 4	输出质量和稳定性更重要
本地代码补全、内联编辑、快速草稿	DiffusionGemma 可试	延迟更敏感，质量容错更高
高 QPS 云服务	先观望或小流量测试	合批后速度优势可能被稀释
端侧或单卡工具	值得压测	更贴近官方优势区间

开发团队现在不该做大迁移。更稳的动作是三件事。

一是测真实延迟，不只看 tokens/s。交互产品更在意首屏响应、局部补全等待时间、用户是否感到卡顿。

二是测质量损失。尤其是量化后，在 RTX 4090、5090 这类消费卡上的表现，不能只看跑得快，还要看补全是否能用。

三是看本地生态支持。MLX、vLLM、Hugging Face Transformers 已经是入口，但 llama.cpp 等生态如果跟进不足，很多本地开发者的接入成本还会偏高。

我更在意的不是最高 4 倍这个数字，而是它把一个老问题摆到台面上：文本生成不一定只能逐 token 排队。只是新路归新路，兵贵神速，也怕失准。

DiffusionGemma 适合拿来抢交互速度，不适合拿来赌最终质量。开头那个 4 倍数字，应该被放回它该在的位置：本地、低并发、专用 GPU、特定推理栈下的速度上限。

DiffusionGemma 提速最高 4 倍：适合本地交互，不是 Gemma 4 替代品

DiffusionGemma

并行生成

模型规格

开放许可

速度前提

适配场景

依赖环境

产品定位

适合任务

云端受限

替代边界

质量短板

生产输出

开发策略

测延迟

测损失

它改了什么：从逐 token 到 256 token 并行生成

它快在哪里：本地、低并发、强交互

它不能替代什么：质量和生产稳定性