DeepSeek开源DSpark:大模型推理提速85%

1 小时前 暂无评论 阅读 5 次
收听本文语音

DeepSeek开源DSpark:大模型推理提速85%

尽管美国政府近期对Anthropic和OpenAI等公司的新模型实施限制,引发地缘政治上对人工智能的紧张局势加剧,但中国开源领域的明星企业DeepSeek再次推出开源项目,有望再次改变全球人工智能发展格局。

近日,该公司发布了DSpark,这是一款采用MIT许可协议的新系统,旨在使大语言模型回答速度更快,同时保持模型原有的语义表达不变。

最直观的理解方式是:大多数AI聊天机器人写作就像一个人一次只能踩着河中的一块石头过河。它们选择一小段文本,然后是下一段,再下一段。

DSpark则为系统配备了一名”侦察兵”,它会提前跑几步,猜测可能的路径,然后让大模型快速检查哪些步骤是安全的。当猜测准确时,模型移动速度更快;当猜测不准确时,DSpark会避免浪费时间检查这些无效猜测。

DSpark技术细节与应用

DeepSeek发布了相关的技术论文、模型检查点以及DeepSpec代码库,这是一个用于训练和评估推测解码系统的工具集。该发布可通过DeepSeek的公开GitHubHugging Face页面获取,两者均采用宽松、友好且普遍的MIT许可协议,使开发者、研究人员和商业企业能够广泛使用这项技术进行研究或适配。

该系统针对人工智能部署中最昂贵的问题之一:以足够快的速度为真实用户提供大模型服务,同时高效利用硬件资源,使经济可行性得以实现。这对消费者聊天机器人、编程助手、智能体工作流和企业AI系统尤为重要,在这些场景中,用户期望获得的长篇回答能够快速流式输出,而非逐字缓慢呈现。

DeepSeek正将DSpark应用于其最新的前沿开放模型——DeepSeek-V4

具体而言,DeepSeek在其已优化的2840亿参数混合专家模型DeepSeek-V4-Flash(1300亿活跃参数)和更强大、更深思熟虑的1.6万亿参数模型DeepSeek-V4-Pro(490亿活跃参数)上都应用了新的DSpark框架(两者均支持高达一百万个token的上下文窗口)。

但更广泛的意义在于,DSpark在概念上不仅限于DeepSeek-V4。DeepSeek自身的测试和发布的检查点涵盖了其他开放模型家族,包括阿里巴巴的开源权重Qwen和谷歌的开源权重Gemma

这意味着运行开源权重模型的企业团队原则上可以为其目标模型训练或微调DSpark风格的草稿模块。这并非外部API客户可以一键切换的功能,但当操作员控制权重和服务栈时,这种方法可以迁移到其他模型。

显著的推理生成速度提升

在DeepSeek的实时生产测试中,DSpark在每用户80个token的服务目标下,将DeepSeek-V4-Flash的整体吞吐量提高了51%;在每用户35个token的服务目标下,将DeepSeek-V4-Pro的整体吞吐量提高了52%。在匹配的系统容量下,DeepSeek报告称,与先前的MTP-1生产基线相比,V4-Flash和V4-Pro的每用户生成速度分别提升了60%至85%和57%至78%。

不同的速度提升指标衡量的是不同的事物。V4-Flash的60%至85%和V4-Pro的57%至78%的数字描述了在匹配的实际系统容量下,当DeepSeek将DSpark与MTP-1进行比较时,单个用户接收生成token的速度提高了多少。

这些是更清晰的”生成速度”数据。DeepSeek还报告了661%和406%的更大增幅,但这些数字是在非常严格的速度目标下测量的整体吞吐量:V4-Flash为每用户120个token,V4-Pro为每用户50个token。

在这些目标下,DeepSeek表示其较旧的MTP-1基线接近运营悬崖,意味着它只能在保持该响应水平的同时运行少量并发请求。

DSpark避免了更多的系统崩溃,因此总系统输出的百分比差异变得更大。简而言之:85%的数字更接近于”在可比条件下用户感受到的速度提升”,而661%和406%的数字则更接近于”当旧系统已经出现瓶颈时,道路还能承载多少额外流量”。

推测解码为何重要

大语言模型通常一次生成一个token。token可以是单词、单词的一部分、标点符号或其他小型文本片段。每个新token都依赖于已生成的文本,因此模型必须不断暂停,检查完整上下文并选择下一个片段。

这种方法准确但缓慢,就像作家每写一个词都需要高级编辑批准一样。编辑可能很优秀,但这个过程会造成瓶颈。

推测解码技术(speculative decoding)在Transformer早期时代被开发出来,旨在解决这一瓶颈。与其要求大模型逐个生成每个token,系统使用更小或更轻量的草稿组件来预测几个可能的下一个token。然后大模型并行检查这一批猜测。如果草稿猜测正确,系统一次前进多个token;如果草稿猜测错误,系统会拒绝错误token及其后续内容,添加一个修正后的token,然后重试。

关键在于在不改变大模型预期输出的前提下提高速度。在标准的推测解码设置中,草稿模型并不替代目标模型,它更像一个助理,为高级编辑准备一个粗略的下一句话供其批准或拒绝。

这一理念并非随着当今大语言模型的出现而凭空产生。2018年,Mitchell Stern、Noam Shazeer和Jakob Uszkoreit提出的关键前驱工作,提出了用于深度自回归模型的块并行解码方法。他们的方法并行预测多个未来步骤,然后保留由主模型验证的最长前缀。这篇论文为后来的推测解码工作中的草稿和检查直觉奠定了基础。

研究线路在2022年变得更加明确。Heming Xia、Tao Ge及其同事引入了SpecDec,这是一种用于序列到序列生成的草稿和验证方法。同年晚些时候,Yaniv Leviathan、Matan Kalman和Yossi Matias发布了”通过推测解码加速Transformer推理“,这有助于为基于Transformer的语言模型定义该技术的现代版本。2023年,DeepMind研究人员跟进了一种密切相关的方法,称为推测采样

2022年和2023年的这些论文是当前大语言模型推理工作中讨论推测解码的最清晰先驱:更快的草稿过程提出token,而更大的目标模型进行验证。这种方法能够在不改变最终输出的情况下显著提高推理速度,这正是DeepSeek的DSpark框架所实现的核心价值。


关注微信号:智享开源,及时了解更新信息。


评论列表
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍