DeepSeek开源提速神器,不换模型就让V4快60%以上






DeepSeek本月在技术圈投了一枚小炸弹——他们开源了一个叫DSpark的投机解码框架,说可以给现有的DeepSeek-V4模型提速60%到85%,而且不需要换模型、不需要重新训练,提速后的输出质量也无损。

这件事值得说清楚,因为大多数用户感知不到”推理速度”这个东西,但它其实决定了你用AI产品时等得多久、以及AI公司要花多少钱来跑服务。

“投机解码把生成拆成两个角色:一个小号的草稿模型先提议一段token,完整的目标模型再一次性验证这段提议。拒绝采样会接受最长有效前缀,再附加一个额外token。因为规则精确保持了目标分布,所以不存在质量损失。”

AI推理加速概念图
DeepSeek DSpark推理加速框架概念图

投机解码是什么东西

要理解DSpark,得先说清楚”投机解码”(Speculative Decoding)这个技术思路。大语言模型生成内容时,是逐token(可以理解为逐词或逐子词)输出的,每次只生成一个token,这导致推理速度受限于内存带宽,GPU的算力往往吃不满。

投机解码的思路是:用一个很小的草稿模型,先”猜”一段接下来可能的token(比如一次猜5个),然后让完整的大模型一次性验证这段猜测——对的留下,错的地方截断,再从那个位置继续。因为草稿模型很小,跑得快;大模型验证一串token比逐次生成更快。这样整体速度就提上来了。

这个技术不是DeepSeek发明的,学术界和工业界已经研究了一阵子。但DSpark的特别之处在于,它解决了一个具体工程问题:草稿模型猜的token,在后半段准确率会快速衰减——前面猜对了,越往后越容易跑偏,导致验证时能接受的长度有限,加速效果打折扣。

DSpark怎么做的

DeepSeek团队把草稿生成拆成了两个阶段,这个设计他们叫”半自回归生成”。第一阶段用一个并行的DFlash模块,一次性给每个位置生成基础logits(这是模型内部表示”下一个token可能性”的数值);第二阶段接一个极轻量的顺序头部,在采样每个token之前,加一个依赖前面已采样token的偏置。

顺序头部默认是”马尔可夫头部”——只往前看一个token,低秩分解让它在词汇量很大的情况下也保持低成本。这个设计让DSpark继承了并行草稿的高首token准确率,又通过顺序头部让接受率在块的深处保持稳定,不会快速衰减。

另一个工程细节是”置信度调度验证”:DSpark给每个草稿位置输出一个置信度分数,估计这个token通过验证的概率;再结合一个硬件感知的调度器,在GPU空闲时验证更多token,繁忙时验证更少。这个设计减少了高负载下验证被拒绝token造成的算力浪费。

实际提速多少

指标分两部分:离线测试和生产环境。

离线测试里,DSpark在Qwen3各个尺寸模型上的接受长度,比Eagle3高26%到31%,比DFlash高16%到18%。注意这里比较的是”接受长度”(每次验证能接受多少token),不是直接的提速倍数,但因为延迟公式里提速正比于接受长度,所以这个指标直接反映了加速潜力。

生产环境的数据更有说服力。DeepSeek-V4-Flash和V4-Pro在他们的真实流量下,用DSpark-5配置(5个token的草稿块+马尔可夫头部),相比之前的MTP-1基线(一次猜2个token的固定方案),每用户生成速度分别提升了60%到85%和57%到78%。这个提升是在相同吞吐量(即相同GPU资源)下测得的,意味着用同样的硬件可以服务更多用户,或者同样多的用户等着的时间更短。


为什么这件事值得关注

第一,这是”不换模型就能提速”的方案。大多数AI公司提速的思路是训练更大的模型、或者用更多GPU,这都意味着更多的钱。DSpark这种在推理层面做优化的思路,是花小钱办大事——尤其对已经在跑DeepSeek-V4的服务来说,换上DSpark的检查点就能直接提速,不需要重新训练。

第二,DeepSeek把检查点和训练代码都开源了,用MIT许可证。这意味着其他公司和研究机构可以直接用,也可以基于这个框架做自己的优化。这种开源技术基础设施的打法,和OpenAI、Anthropic的闭源路线形成鲜明对比。

第三,推理速度的提升会传导到终端用户。AI聊天产品的响应速度、AI编程助手的代码生成延迟、AI搜索的返回时间——这些用户体验指标,背后都是推理速度。DSpark如果被广泛采用,意味着用同等质量的模型,用户能感受到更快的响应。

最后说一句实际的:DSpark目前是和DeepSeek-V4的权重绑定的,不是通用框架(虽然DeepSpec训练代码库支持在其他模型上训练草稿模块)。如果你想在自己的项目里用,得跑训练——官方配置假设单机8块GPU,目标缓存可能非常大(Qwen3-4B设置下接近38TB),这个门槛不低。但对已经有大模型服务的团队来说,这个方向值得跟进。

📎 原文来源:AI HOT – DeepSeek 开源 DSpark 投机解码框架


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注