• 隐私政策
  • 联系我们
  • 关于我们
2026 年 6 月 28 日 星期日
聚赢方舟
广告
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
聚赢方舟
No Result
View All Result
Home 贵金属

DeepSeek 又变强了:发布 DSpark 框架 推理速度提升超 60%

by 聚赢方舟
9 小时 ago
in 贵金属
Reading Time: 1 min read
A A
分享至微博分享给朋友

【TechWeb】6 月 27 日,DeepSeek 团队联合北京大学发布名为 《DSpark》 的研究论文 (基于 speculative decoding 方向),提出一种用于加速大模型推理的新方法。

该技术在保持生成文本分布完全无损 (Lossless) 的前提下,成功突破了大语言模型 (LLM) 在高并发生产环境中的推理性能瓶颈,实测数据显示,其单用户生成速度较现有主流方案最高提升 85%。

目前,该框架已被部署在 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的真实线上流量中,大幅加速了大语言模型 (LLM) 的推理速度。

值得注意的是,DeepSeek 创始人梁文锋也位列论文作者名单之中。

大模型推理的 「速度焦虑」

据了解,主流语言模型生成文本时,基本采用 autoregressive(自回归) 方式。每生成一个新 token 都需要一次完整的前向传播,推理延迟随输出长度线性增长。这也造成了大模型回复总感觉很慢的原因。

在实时对话、多轮智能体工作流等高交互场景中,生成速度直接影响用户体验,也会影响 GPU 利用率。

推测解码技术提供了一条解决路径:用一个轻量级草稿模型快速生成若干候选 token,再由大模型批量验证。

然而,现有方案各有缺陷。自回归草稿模型逐 token 串行生成,质量虽高但生成延迟随候选长度线性增长;并行草稿模型虽能一次产出全部候选,但 token 间缺少依赖关系,导致后续候选被大量拒绝,浪费计算资源。

DSpark 的两把 「手术刀」

围绕上述两大瓶颈,DSpark 提出了两项互补机制。

一个是 「半自回归生成」 架构 (Semi-Autoregressive Generation)。

DSpark 在并行生成主干的基础上引入轻量级顺序模块,逐 token 注入前缀依赖信息。可以理解为:前面用并行方式快速铺开候选,后面再用一个很轻的顺序模块检查相邻 token 的衔接关系。

该模块提供两种实现——仅依赖前一个 token 的马尔可夫头,以及通过循环状态累积完整前缀信息的 RNN 头。实验表明,两层 Transformer 深度的 DSpark 即可在所有测试领域上超过五层 DFlash 的接受长度。

另一个是置信度调度验证机制。

传统方案对整段候选无差别校验,在高负载时大量算力被浪费在极可能被拒绝的尾部 token 上。

置信度调度验证机制,可根据不同请求的成功概率与系统负载,自适应调整验证长度,从而减少无效计算开销。

在离线测试中,该方法显著提升了可接受生成长度;在 DeepSeek-V4 线上系统中,相比基线模型,推理速度提升约 60%–85%,并有效降低高并发下的吞吐损耗。

DSpark 在每个候选位置输出置信度分数,预测该 token 的存活概率。硬件感知前缀调度器根据实时引擎吞吐量,为每个请求动态决定最优验证长度,优先将算力分配给预期回报最高的 token。

据了解,论文还同时开源了模型检查点与训练框架 DeepSpec,以推动社区进一步研究。DeepSpec 是一个面向 speculative decoding 训练的代码库,包含 Eagle3、DFlash 和 DSpark。

ADVERTISEMENT

【TechWeb】6 月 27 日,DeepSeek 团队联合北京大学发布名为 《DSpark》 的研究论文 (基于 speculative decoding 方向),提出一种用于加速大模型推理的新方法。

该技术在保持生成文本分布完全无损 (Lossless) 的前提下,成功突破了大语言模型 (LLM) 在高并发生产环境中的推理性能瓶颈,实测数据显示,其单用户生成速度较现有主流方案最高提升 85%。

目前,该框架已被部署在 DeepSeek-V4-Flash 与 DeepSeek-V4-Pro 的真实线上流量中,大幅加速了大语言模型 (LLM) 的推理速度。

值得注意的是,DeepSeek 创始人梁文锋也位列论文作者名单之中。

大模型推理的 「速度焦虑」

据了解,主流语言模型生成文本时,基本采用 autoregressive(自回归) 方式。每生成一个新 token 都需要一次完整的前向传播,推理延迟随输出长度线性增长。这也造成了大模型回复总感觉很慢的原因。

在实时对话、多轮智能体工作流等高交互场景中,生成速度直接影响用户体验,也会影响 GPU 利用率。

推测解码技术提供了一条解决路径:用一个轻量级草稿模型快速生成若干候选 token,再由大模型批量验证。

然而,现有方案各有缺陷。自回归草稿模型逐 token 串行生成,质量虽高但生成延迟随候选长度线性增长;并行草稿模型虽能一次产出全部候选,但 token 间缺少依赖关系,导致后续候选被大量拒绝,浪费计算资源。

DSpark 的两把 「手术刀」

围绕上述两大瓶颈,DSpark 提出了两项互补机制。

一个是 「半自回归生成」 架构 (Semi-Autoregressive Generation)。

DSpark 在并行生成主干的基础上引入轻量级顺序模块,逐 token 注入前缀依赖信息。可以理解为:前面用并行方式快速铺开候选,后面再用一个很轻的顺序模块检查相邻 token 的衔接关系。

该模块提供两种实现——仅依赖前一个 token 的马尔可夫头,以及通过循环状态累积完整前缀信息的 RNN 头。实验表明,两层 Transformer 深度的 DSpark 即可在所有测试领域上超过五层 DFlash 的接受长度。

另一个是置信度调度验证机制。

传统方案对整段候选无差别校验,在高负载时大量算力被浪费在极可能被拒绝的尾部 token 上。

置信度调度验证机制,可根据不同请求的成功概率与系统负载,自适应调整验证长度,从而减少无效计算开销。

在离线测试中,该方法显著提升了可接受生成长度;在 DeepSeek-V4 线上系统中,相比基线模型,推理速度提升约 60%–85%,并有效降低高并发下的吞吐损耗。

DSpark 在每个候选位置输出置信度分数,预测该 token 的存活概率。硬件感知前缀调度器根据实时引擎吞吐量,为每个请求动态决定最优验证长度,优先将算力分配给预期回报最高的 token。

据了解,论文还同时开源了模型检查点与训练框架 DeepSpec,以推动社区进一步研究。DeepSpec 是一个面向 speculative decoding 训练的代码库,包含 Eagle3、DFlash 和 DSpark。

聚赢方舟

专业财经网站

聚赢方舟 (arkxx.com) 网站是长沙聚赢方舟文化传媒有限公司旗下运营的财经资讯门户网站。聚赢方舟致力于为用户提供全面而深入的财经资讯与金融数据分析。网站汇集了最新的市场行情、股票动态、投资策略以及经济趋势,为投资者和财经行业人士提供及时的新闻参考。网站通过高效的数据处理与分析工具,聚赢方舟帮助用户把握市场机会,优化投资决策。

此外,网站还定期发布专业的市场评估报告和财经评论,确保用户能够获得最准确的市场洞察。

方舟日历

2026 年 6 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 5 月    

标签

中国 中国企业 也不 买了 互联网 假日 养老金 北大 千元 印度 反超 奶茶 家族 工龄 怎么回事 或将 房价 房贷 新能源 新闻 日本 更大 有什么 村官 来了 楼市 江苏 沙特 浙江 特斯拉 电动车 石油 美元 美国 美籍 节日 芯片 让人 越南 长假 防晒 阿里 阿里巴巴 院士 首富

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

No Result
View All Result
  • Home

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

此网站使用 cookie。继续使用本网站即表示您同意使用 cookie。访问隐私和 cookie 策略.。