谷歌DiffusionGemma:并行生成与自纠的新突破

谷歌DiffusionGemma:并行生成与自纠的新突破

引入扩散机制,打破逐字生成的桎梏

像Stable Diffusion这样的生成式AI图像生成器,并非像画家一样从左到右逐个像素绘制,而是从噪点开始,通过迭代并行地精炼整张图像,直到其收敛,这一过程被称为“扩散”。多年来,将这一原理应用于文本生成一直难以在大规模场景下实现。

传统的语言模型工作方式如同打字机:从左到右逐个生成令牌,一旦输出便无法修改。这种模式在云端批量处理时能保持GPU饱和,但在本地推理或低并发部署场景下,GPU大部分时间处于空闲状态。

谷歌本周发布的开源实验模型DiffusionGemma,将扩散技术应用于生产规模的文本生成。该模型基于Gemma 4架构构建,采用Apache 2.0开源协议,也是首个获得开源vLLM推理平台原生支持的扩散语言模型。它能并行生成256个令牌的代码块,而非按顺序逐个生成,且每个令牌位置都能关注到其他所有位置。谷歌称,DiffusionGemma在GPU上的文本生成速度是标准模型的4倍。根据vLLM今日发布的基准测试结果,在单张Nvidia H100上(批处理大小为1),其FP8版本每秒可生成1,008个令牌;在H200上,这一数字达到1,288,约为标准自回归基线模型的6倍。

尽管速度提升显著,谷歌对该发布的定位十分务实。公司在发布博文中直言,DiffusionGemma的整体输出质量低于标准Gemma 4,并表示:“对于追求极致质量的应用,我们建议部署标准Gemma 4。”

工作原理:并行精炼与自我修正

DiffusionGemma不按顺序生成令牌。它从包含256个随机占位符令牌的代码块(相当于一张空白画布)开始,对整个代码块进行多次精炼。在每一步中,它会评估每个位置,锁定模型最有把握的令牌。对于不确定的位置,则会在下一步中随机化并重新评估,利用上一步确定的内容来辅助判断。代码块逐渐收敛,直到足够多的位置稳定下来,从而锚定其余部分。

这种架构带来了两个核心优势:

  • 自我修正能力。自回归模型一旦生成了错误的令牌,后续令牌都会基于该错误生成,导致无法挽回。而DiffusionGemma能够识别低置信度的位置,并在下一步中重新评估。
  • 双向上下文感知。代码块中的每个位置都会同时关注其他所有位置,包括序列中后续出现的令牌。这使得该模型在处理那些从左到右生成难以完成的受限生成任务时,具有结构性的优势。

谷歌通过一个微调后的数独求解器展示了这两大特性。基础模型无法解开任何谜题,而在数独数据集上微调后,成功率达到了80%,且只需12次去噪步骤即可收敛,而非48次。效率的提升直接源于模型自我修正并提前停止的能力。

模型构建与底层优化

DiffusionGemma作为一个260亿参数的混合专家模型运行,但在推理期间仅激活38亿参数。经过量化后,它可在Nvidia RTX 4090和5090等消费级硬件的18GB显存内运行。谷歌和英伟达还针对使用NVFP4内核的企业级Hopper和Blackwell服务器进行了优化。

vLLM的集成需要新的开发工作,因为DiffusionGemma不符合标准的服务模型。典型的vLLM批处理对每个请求应用相同的注意力类型,而DiffusionGemma的请求在循环处理提示读取、画布精炼和代码块提交时,会在因果注意力和双向注意力之间切换。团队在Triton和FlashAttention 4后端中都构建了按请求切换注意力的功能,并复用了现有的投机解码路径来进行精炼循环。

团队为此集成构建的新ModelState接口,旨在支持未来出现的更多vLLM扩散模型。

性能优势的适用场景分析

DiffusionGemma的速度优势是真实存在的,但有条件。其适用性完全取决于部署环境。

  • 数据表现。在单张H100(批处理大小为1)上,vLLM发布的基准测试显示FP8模型的速度约为标准自回归基线的5倍;在H200上约为6倍。这些峰值数据反映了最佳条件:单用户、专用硬件、FP8量化。
  • 优势领域。本地推理、单用户应用和低并发服务。在这些条件下,GPU有剩余算力,而内存带宽是瓶颈。DiffusionGemma的并行代码块生成恰好填补了这一空白。
  • 劣势领域。高吞吐量的云端服务。当服务器批量处理数百个并发请求时,自回归模型已经占满了可用算力,DiffusionGemma的并行解码带来的收益会递减。
  • 质量上限。AI研究员Guilherme O’Tina在X平台上指出:“本地瑕疵与幻觉是不同的问题,这决定了该模型在何处真正胜出。”

与其他技术的横向对比

扩散语言模型并非新鲜事物,研究人员多年来一直在小规模上构建此类模型,Inception Labs的Mercury Coder也在2025年将该方法商业化应用于编码任务。DiffusionGemma的独特之处在于其规模——260亿参数的MoE主干、原生的vLLM支持,以及通用指令微调模型而非特定领域模型。

对于在现有推理工具中评估该模型的工程师来说,更有用的比较对象是“投机解码”,两者的区别至关重要。投机解码保留标准的自回归目标模型,并使用较小的草稿模型来猜测后续的几个令牌,目标模型在一次传递中验证它们。如果采样正确,输出分布将与目标模型保持一致,且架构不变。

专注于生产AI系统的ML和AI研究员Andrew Kuncevich在X平台上直言:“DiffusionGemma是不同的。它不仅仅是猜测未来的令牌,而是创建一个充满噪声的256令牌画布,并并行地反复对整个代码块进行去噪。因此,这不仅仅是一种解码技巧,而是一种不同的生成范式。”

与标准Gemma 4相比,这是一种用质量换速度的交易。谷歌的基准数据显示,在一般输出质量指标上,DiffusionGemma低于标准Gemma 4,差距因任务而异。

在结构化的受限任务中,包括代码填充、模板生成以及需要双向约束传播的问题,该架构具有结构性优势,微调可以挖掘出这种潜力,正如数独结果所示。而在开放式生成中,标准Gemma 4依然是更强的选择。

对企业用户的意义

DiffusionGemma通过标准的vLLM兼容OpenAI端点提供服务,无需更改特定于扩散的管道。

但这并不是一个通用的模型升级。

对于运行本地或低并发推理的团队而言,架构选择刚刚得到了扩展。此前,降低生成延迟往往受限于传统架构,而现在这一局面已被打破。


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/technology/googles-diffusiongemma-generates-256-tokens-in-parallel-and-self-corrects-as-it-goes

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1374篇


关注微信

分类