DeepSeek开源提速神器，不换模型就让V4快60%以上

DeepSeek本月在技术圈投了一枚小炸弹——他们开源了一个叫DSpark的投机解码框架，说可以给现有的DeepSeek-V4模型提速60%到85%，而且不需要换模型、不需要重新训练，提速后的输出质量也无损。

这件事值得说清楚，因为大多数用户感知不到”推理速度”这个东西，但它其实决定了你用AI产品时等得多久、以及AI公司要花多少钱来跑服务。

“投机解码把生成拆成两个角色：一个小号的草稿模型先提议一段token，完整的目标模型再一次性验证这段提议。拒绝采样会接受最长有效前缀，再附加一个额外token。因为规则精确保持了目标分布，所以不存在质量损失。”

投机解码是什么东西

要理解DSpark，得先说清楚”投机解码”（Speculative Decoding）这个技术思路。大语言模型生成内容时，是逐token（可以理解为逐词或逐子词）输出的，每次只生成一个token，这导致推理速度受限于内存带宽，GPU的算力往往吃不满。

投机解码的思路是：用一个很小的草稿模型，先”猜”一段接下来可能的token（比如一次猜5个），然后让完整的大模型一次性验证这段猜测——对的留下，错的地方截断，再从那个位置继续。因为草稿模型很小，跑得快；大模型验证一串token比逐次生成更快。这样整体速度就提上来了。

这个技术不是DeepSeek发明的，学术界和工业界已经研究了一阵子。但DSpark的特别之处在于，它解决了一个具体工程问题：草稿模型猜的token，在后半段准确率会快速衰减——前面猜对了，越往后越容易跑偏，导致验证时能接受的长度有限，加速效果打折扣。

DSpark怎么做的

DeepSeek团队把草稿生成拆成了两个阶段，这个设计他们叫”半自回归生成”。第一阶段用一个并行的DFlash模块，一次性给每个位置生成基础logits（这是模型内部表示”下一个token可能性”的数值）；第二阶段接一个极轻量的顺序头部，在采样每个token之前，加一个依赖前面已采样token的偏置。

顺序头部默认是”马尔可夫头部”——只往前看一个token，低秩分解让它在词汇量很大的情况下也保持低成本。这个设计让DSpark继承了并行草稿的高首token准确率，又通过顺序头部让接受率在块的深处保持稳定，不会快速衰减。

另一个工程细节是”置信度调度验证”：DSpark给每个草稿位置输出一个置信度分数，估计这个token通过验证的概率；再结合一个硬件感知的调度器，在GPU空闲时验证更多token，繁忙时验证更少。这个设计减少了高负载下验证被拒绝token造成的算力浪费。

实际提速多少

指标分两部分：离线测试和生产环境。

离线测试里，DSpark在Qwen3各个尺寸模型上的接受长度，比Eagle3高26%到31%，比DFlash高16%到18%。注意这里比较的是”接受长度”（每次验证能接受多少token），不是直接的提速倍数，但因为延迟公式里提速正比于接受长度，所以这个指标直接反映了加速潜力。

生产环境的数据更有说服力。DeepSeek-V4-Flash和V4-Pro在他们的真实流量下，用DSpark-5配置（5个token的草稿块+马尔可夫头部），相比之前的MTP-1基线（一次猜2个token的固定方案），每用户生成速度分别提升了60%到85%和57%到78%。这个提升是在相同吞吐量（即相同GPU资源）下测得的，意味着用同样的硬件可以服务更多用户，或者同样多的用户等着的时间更短。

为什么这件事值得关注

第一，这是”不换模型就能提速”的方案。大多数AI公司提速的思路是训练更大的模型、或者用更多GPU，这都意味着更多的钱。DSpark这种在推理层面做优化的思路，是花小钱办大事——尤其对已经在跑DeepSeek-V4的服务来说，换上DSpark的检查点就能直接提速，不需要重新训练。

第二，DeepSeek把检查点和训练代码都开源了，用MIT许可证。这意味着其他公司和研究机构可以直接用，也可以基于这个框架做自己的优化。这种开源技术基础设施的打法，和OpenAI、Anthropic的闭源路线形成鲜明对比。

第三，推理速度的提升会传导到终端用户。AI聊天产品的响应速度、AI编程助手的代码生成延迟、AI搜索的返回时间——这些用户体验指标，背后都是推理速度。DSpark如果被广泛采用，意味着用同等质量的模型，用户能感受到更快的响应。

最后说一句实际的：DSpark目前是和DeepSeek-V4的权重绑定的，不是通用框架（虽然DeepSpec训练代码库支持在其他模型上训练草稿模块）。如果你想在自己的项目里用，得跑训练——官方配置假设单机8块GPU，目标缓存可能非常大（Qwen3-4B设置下接近38TB），这个门槛不低。但对已经有大模型服务的团队来说，这个方向值得跟进。

📎 原文来源：AI HOT – DeepSeek 开源 DSpark 投机解码框架

DeepSeek开源提速神器，不换模型就让V4快60%以上

投机解码是什么东西

DSpark怎么做的

实际提速多少

为什么这件事值得关注

评论

发表回复 取消回复

更多文章

TimesFM：Google Research 开源时间序列基础预测模型，25.9K Stars 让时序预测变得简单

“The Dude”也逃不过：Jeff Bridges用AI生成音乐，说了一句”很吓人”

AI语音越来越像真人，ElevenLabs悄悄给音频打上了「隐形水印」

DeepSeek开源提速神器，不换模型就让V4快60%以上

发表回复取消回复