谷歌DiffusionGemma：并行生成与自纠的新突破

引入扩散机制，打破逐字生成的桎梏

像Stable Diffusion这样的生成式AI图像生成器，并非像画家一样从左到右逐个像素绘制，而是从噪点开始，通过迭代并行地精炼整张图像，直到其收敛，这一过程被称为“扩散”。多年来，将这一原理应用于文本生成一直难以在大规模场景下实现。

传统的语言模型工作方式如同打字机：从左到右逐个生成令牌，一旦输出便无法修改。这种模式在云端批量处理时能保持GPU饱和，但在本地推理或低并发部署场景下，GPU大部分时间处于空闲状态。

谷歌本周发布的开源实验模型DiffusionGemma，将扩散技术应用于生产规模的文本生成。该模型基于Gemma 4架构构建，采用Apache 2.0开源协议，也是首个获得开源vLLM推理平台原生支持的扩散语言模型。它能并行生成256个令牌的代码块，而非按顺序逐个生成，且每个令牌位置都能关注到其他所有位置。谷歌称，DiffusionGemma在GPU上的文本生成速度是标准模型的4倍。根据vLLM今日发布的基准测试结果，在单张Nvidia H100上（批处理大小为1），其FP8版本每秒可生成1,008个令牌；在H200上，这一数字达到1,288，约为标准自回归基线模型的6倍。

尽管速度提升显著，谷歌对该发布的定位十分务实。公司在发布博文中直言，DiffusionGemma的整体输出质量低于标准Gemma 4，并表示：“对于追求极致质量的应用，我们建议部署标准Gemma 4。”

工作原理：并行精炼与自我修正

DiffusionGemma不按顺序生成令牌。它从包含256个随机占位符令牌的代码块（相当于一张空白画布）开始，对整个代码块进行多次精炼。在每一步中，它会评估每个位置，锁定模型最有把握的令牌。对于不确定的位置，则会在下一步中随机化并重新评估，利用上一步确定的内容来辅助判断。代码块逐渐收敛，直到足够多的位置稳定下来，从而锚定其余部分。

这种架构带来了两个核心优势：

自我修正能力。自回归模型一旦生成了错误的令牌，后续令牌都会基于该错误生成，导致无法挽回。而DiffusionGemma能够识别低置信度的位置，并在下一步中重新评估。
双向上下文感知。代码块中的每个位置都会同时关注其他所有位置，包括序列中后续出现的令牌。这使得该模型在处理那些从左到右生成难以完成的受限生成任务时，具有结构性的优势。

谷歌通过一个微调后的数独求解器展示了这两大特性。基础模型无法解开任何谜题，而在数独数据集上微调后，成功率达到了80%，且只需12次去噪步骤即可收敛，而非48次。效率的提升直接源于模型自我修正并提前停止的能力。

模型构建与底层优化

DiffusionGemma作为一个260亿参数的混合专家模型运行，但在推理期间仅激活38亿参数。经过量化后，它可在Nvidia RTX 4090和5090等消费级硬件的18GB显存内运行。谷歌和英伟达还针对使用NVFP4内核的企业级Hopper和Blackwell服务器进行了优化。

vLLM的集成需要新的开发工作，因为DiffusionGemma不符合标准的服务模型。典型的vLLM批处理对每个请求应用相同的注意力类型，而DiffusionGemma的请求在循环处理提示读取、画布精炼和代码块提交时，会在因果注意力和双向注意力之间切换。团队在Triton和FlashAttention 4后端中都构建了按请求切换注意力的功能，并复用了现有的投机解码路径来进行精炼循环。

团队为此集成构建的新ModelState接口，旨在支持未来出现的更多vLLM扩散模型。

性能优势的适用场景分析

DiffusionGemma的速度优势是真实存在的，但有条件。其适用性完全取决于部署环境。

数据表现。在单张H100（批处理大小为1）上，vLLM发布的基准测试显示FP8模型的速度约为标准自回归基线的5倍；在H200上约为6倍。这些峰值数据反映了最佳条件：单用户、专用硬件、FP8量化。
优势领域。本地推理、单用户应用和低并发服务。在这些条件下，GPU有剩余算力，而内存带宽是瓶颈。DiffusionGemma的并行代码块生成恰好填补了这一空白。
劣势领域。高吞吐量的云端服务。当服务器批量处理数百个并发请求时，自回归模型已经占满了可用算力，DiffusionGemma的并行解码带来的收益会递减。
质量上限。AI研究员Guilherme O’Tina在X平台上指出：“本地瑕疵与幻觉是不同的问题，这决定了该模型在何处真正胜出。”

与其他技术的横向对比

扩散语言模型并非新鲜事物，研究人员多年来一直在小规模上构建此类模型，Inception Labs的Mercury Coder也在2025年将该方法商业化应用于编码任务。DiffusionGemma的独特之处在于其规模——260亿参数的MoE主干、原生的vLLM支持，以及通用指令微调模型而非特定领域模型。

对于在现有推理工具中评估该模型的工程师来说，更有用的比较对象是“投机解码”，两者的区别至关重要。投机解码保留标准的自回归目标模型，并使用较小的草稿模型来猜测后续的几个令牌，目标模型在一次传递中验证它们。如果采样正确，输出分布将与目标模型保持一致，且架构不变。

专注于生产AI系统的ML和AI研究员Andrew Kuncevich在X平台上直言：“DiffusionGemma是不同的。它不仅仅是猜测未来的令牌，而是创建一个充满噪声的256令牌画布，并并行地反复对整个代码块进行去噪。因此，这不仅仅是一种解码技巧，而是一种不同的生成范式。”

与标准Gemma 4相比，这是一种用质量换速度的交易。谷歌的基准数据显示，在一般输出质量指标上，DiffusionGemma低于标准Gemma 4，差距因任务而异。

在结构化的受限任务中，包括代码填充、模板生成以及需要双向约束传播的问题，该架构具有结构性优势，微调可以挖掘出这种潜力，正如数独结果所示。而在开放式生成中，标准Gemma 4依然是更强的选择。