DeepSeek-V4 虽迟但到！百万上下文成标配华为昇腾和英伟达均被写进其技术报告

财联社 4 月 24 日讯（记者付静）今日上午深度求索官宣，全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源，API 服务也已同步更新。据称，DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现了国内与开源领域的领先，深度求索官方称「迈入百万上下文普惠时代」。

DeepSeek 可谓 2025 年科技圈的「顶流」，今年初曾有消息传出 DeepSeek-V4 将在今年春节前后发布，一时间业内讨论度升温，大模型行业竞争也空前激烈，新产品扎堆上线、C 端营销玩法丰富、新概念层出不穷、技术谱系加速扩展。不过时至今日，DeepSeek-V4 才终于亮相。

「每家厂商看它其实都有压力。」一位长期与几家国产模型厂商、互联网大厂合作的 AI 产业链人士向财联社记者如此形容 DeepSeek。

财联社记者此前多方采访获悉，通过接入 DeepSeek 并将其与多款国产大模型进行协同应用，国内不少垂类平台、场景实现了成本与效率的兼顾。因此 DeepSeek 的下一代旗舰模型也受到用户期待，其中，DeepSeek-V4 的上下文长度、Agent 能力、推理成本、AI 编程能力、多模态能力、模型参数维度等均是行业关注重点。

DeepSeek 时刻再到来

深度求索方面介绍，DeepSeek-V4 模型按大小分为 DeepSeek-V4-Pro、DeepSeek-V4-Flash 两个版本，上下文长度均为 1M（一百万）。「从现在开始，1M 上下文将是 DeepSeek 所有官方服务的标配。」

DeepSeek-V4-Pro 的最大亮点在于 Agent 能力大幅提高。在 Agentic Coding 评测中，V4-Pro 已达到当前开源模型最佳水平，目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型，据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。

同时，DeepSeek-V4-Pro 在世界知识测评中，大幅领先其他开源模型，仅稍逊于闭源模型 Gemini-Pro-3.1。推理性能方面，其在数学、STEM、竞赛型代码的测评中超越了当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。

相比之下，DeepSeek-V4-Flash 则被称为是「更快捷高效的经济之选」，模型参数和激活更小。

值得关注的是 DeepSeek-V4 的结构创新。

据称，DeepSeek-V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeek Sparse Attention），实现长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。

财联社记者还注意到，深度求索罕见地将华为昇腾和英伟达共同写进 DeepSeek-V4 技术报告：「我们在英伟达 GPU 和华为昇腾 NPU 平台上验证了细粒度 EP（专家并行）方案。」

DeepSeek 表示，受限于高端算力，目前 DeepSeek-V4-Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调。

DeepSeek-V4 的亮点还在于 Agent 能力，其针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 进行了适配和优化，在代码任务、文档生成任务等方面表现均有提升。

财联社记者注意到，自今年 1 月以来，前述的 DeepSeek-V4 部分技术创新点已经被「剧透」。

2 月 11 日，DeepSeek 的 App 端和网页端已经悄然开始灰度测试一项重大升级。财联社记者实测了解到，模型上下文窗口长度直接增至 1M token。DeepSeek 称，「一次性读完《三体》三部曲没问题，70 万个中文字符以内随便发。」此外，版本模型知识库截止时间更新至 2025 年 5 月。

2 月 11 日灰度测试版 DeepSeek 的回复

在此之前，DeepSeek 还罕见地连发两篇论文，公司创始人梁文锋均署名参与。

其中，第一篇论文公开的 mHC（Manifold-Constrained Hyper-Connections，流形约束超连接），解决了大规模模型训练中的稳定性问题；第二篇论文提出了名为 Engram（条件记忆）的全新模块，其颠覆性在于实现了适配超长上下文场景的「存算分离」。DeepSeek 实测数据显示，即使挂载了 100B（千亿）参数的 Engram 表到 CPU 内存，相比于纯 GPU 推理，吞吐量的下降不到 3%。

野村证券在一份研报中预测，V4 在技术路径上将融合 mHC 和 Engram，其技术突破将有效打破「芯片墙」与「内存墙」的桎梏。

据了解，DeepSeek 的 V 系列是通用大模型的主线迭代版本，擅长百科、写作、代码生成等常规任务，响应速度快。2024 年初、年中、年末，DeepSeek-V1、V2、V3 分别上线。DeepSeek 的 R 系列则侧重推理增强，擅长数学、物理、逻辑谜题等需要分步思考的任务，会展示详细的「思维链」。去年 1 月 22 日，DeepSeek-R1 相关论文发布。

从 DeepSeek 迭代进展看，去年 V 系列先后完成小版本升级（版本号 DeepSeek-V3-0324）、发布 DeepSeek-V3.1、更新至 DeepSeek-V3.1-Terminus 版本、发布 DeepSeek-V3.2-Exp 模型（实验性版本）、发布正式版 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 等动作。

值得一提的是，目前 DeepSeek 仍未上线多模态能力，专注于纯文本和语音交互。

此前，财联社记者与灰度测试版 DeepSeek 对话，其表示，自身还不具备「原生」的多模态理解能力。财联社记者进一步询问当前版本号，其回应：「关于我目前的具体版本，情况有些特殊：这次更新后，我并没有一个像 V4 或 R1 那样具体的版本号。」

2 月 14 日灰度测试版 DeepSeek 的回复

AI 产品经理张亮告诉财联社记者，「未来要实现 AGI，AI 大模型一定是多模态融合的方向，这是一个共识。多模态于 DeepSeek 而言可能是绕不过去的一个能力，未来不仅仅是要理解文本，还能理解图片、视频甚至物理事件。」

行业将迎新一轮「洗牌」？

深度求索官方在 DeepSeek-V4 官宣文稿的最后，提到一句出自《荀子·非十二子》的「不诱于誉，不恐于诽，率道而行，端然正己。」

过去几个月，业内不断传出 DeepSeek-V4「跳票」、公司人才流失严重、对外寻求融资、去 CUDA 化等消息。《财经》杂志今日上午发布的独家消息称，DeepSeek 计划融资 18 亿美元，投资方为阿里和腾讯。

一向较为低调的深度求索似乎用上述 16 个字做出了回应，背后深意值得品味。

那么，DeepSeek-V4 的问世，是否可能引发行业的新一轮洗牌？

在张亮看来，会不会引发新一轮洗牌，重点还是看 DeepSeek-V4 整个范式、代际上是否有重大提升。他提到，参考去年备受瞩目的 DeepSeek-R1，思维链和推理成本大幅下降就是明显的两点提升。

不过 IDC 中国研究总监卢言霞则告诉财联社记者，这款‌被寄予厚望的新品「谈不上会对市场格局带来大的洗牌，因为 DeepSeek 已经是数一数二了。」

此前，卢言霞表示，面对 DeepSeek-V4，几家大厂「一定会有压力」。原因在于，DeepSeek 是开源模型，而当前行业企业用户倾向于私有化部署，一般会选择开源模型。「所以如果 DeepSeek 继续保持技术领先优势，那它有望成为事实上的 Top1 大模型。」

财联社记者也从业内获悉，随着模型上限不断接近、模型更迭更加频繁，各厂商如何结合自身优势，借势模型能力的提升巩固生态占位，或将是下半场竞争的核心。

回顾 2025 年初，凭借着开源和低成本的优势，DeepSeek 曾打破了原有市场格局，科技巨头和头部初创模型厂商纷纷感受到压力。

2026 年则更像是中国 AI 模型产品「大年」。

2 月，或是由于业内传言 DeepSeek-V4 即将发布消息，国内几家科技巨头趁着春节再度打响流量入口战。从成效来看，各厂商的营销投入推动了 AI 应用普及，豆包、元宝、千问与 DeepSeek 均跻身「月活跃用户（MAU）亿级俱乐部」。

同时，在产品层面，字节跳动视频生成模型 Seedance 2.0、图像模型 Seedream 5.0 Lite 引发广泛关注，2 月 14 日豆包大模型 2.0 正式发布。除夕夜，阿里还开源了新一代千问 Qwen3.5 模型。

几乎同一时间，几家模型厂商也抛出重磅炸弹，Kimi K2.5、GLM-5、MiniMax M2.5 等模型密集发布。

而在本月，包括 Qwen3.6-Plus、Xiaomi MiMo-V2.5、Hy3 preview 在内的多款模型也发布。

技术谱系加速扩展

财联社记者观察到，自 ChatGPT 引爆此轮人工智能浪潮以来，产业创新迭代令人应接不暇，各头部厂商均在持续刷新各方向 SOTA（state-of-the-art，当前最高水平）、加速推动技术谱系扩展，特别是上下文、Agent 能力等方面在近期受到关注。

上下文（Context）方面，从行业进展看，谷歌 Gemini 系列于 2024 年最早支持百万级超长上下文，今年 2 月发布的 Claude Opus 4.6 刚刚实现此能力。

2 月初，腾讯首席 AI 科学家姚顺雨执掌 AI 之后的第一项公开署名研究发布，同样聚焦上下文。其团队指出，「要让大模型学会从上下文中学习，远比我们想象的要难。并且，即便抹平了上下文带来的信息差，模型也未必能解决问题，这说明模型在上下文利用上，依然存在显著的能力短板。」

Agent 方面，开源 AI 智能体 OpenClaw「龙虾」成为现象级产品，即便并非是一款适合普通消费者的产品，但也推动了智能体的普及。

「3 月开始『龙虾』爆火，4 月很快就回归了理性，热度有所下降，不过产品的演化速度其实一点都没有降低。我们的初步结论就是，『龙虾』所带来的智能体的技术革命是不可逆转的。」英特尔中国区技术部总经理高宇对财联社记者表示。

Skills 方面同样热度不低。

Agent Skills 由元数据（简要描述）、可配置脚本、执行模板和详细说明等构成，支持复杂工作流的打包与复用，关键优势在于可控性，通过结构化能力模块与思维链编排机制，使大模型具备可控、可复用、可持续优化的研究执行能力，已应用于不少垂类场景，众多厂商正在打造 AI Skill 生态，涉及智能搜索、视频快剪、游戏辅助、安全护栏等多个场景。

此前，财联社记者从金融科技服务商进门方面了解到，其 AI 产品「进宝」的「投研大脑」能力就类似于 Agent Skills。「从行业进化角度看，Skills 将推动 AI 应用从通用聊天走向领域专家；通过将特定工作流程固化为可复用的模块，解决了通用模型懂道理却不会按你的规矩干活的核心痛点；让行业竞争壁垒从比拼基础模型大小，转向比拼高质量、专业化 Skills 生态的构建。」该公司 CTO 姜锐锋介绍。

DeepSeek 在多领域「出圈」

当前，2025 年科技圈「顶流」DeepSeek 的能力已在多领域「出圈」。

DeepSeek-V3 上线后，随后 DeepSeek-R1 在去年春节前夕横空出世，引发全球关注，英伟达市值单日蒸发 5930 亿美元。从随后各厂商拥抱「顶流」的进展看，去年春节期间由科技公司打头阵，三大运营商、阿里、腾讯、字节、百度等旗下云平台、应用端产品等率先接入 DeepSeek-R1/V3，随后各地政府、央国企等也均在加速适配 DeepSeek。

站在垂类应用视角，「不管是从归纳总结还是生成最终的回复上，DeepSeek 对于投研行业的适配度还是很高的。」姜锐锋介绍，其公司的 AI 产品方案更多地是多模型协同完成，包括用 DeepSeek 完成语义路由的能力，匹配最能解决用户问题的投研思维链，用 Kimi k2.5 处理投研工具的调用，让豆包模型对工具返回结果做裁剪，最终由 DeepSeek 来汇总输出。这不仅解决了单一模型的能力问题，更通过分工隐含地兼顾了成本与效率。

野村证券研报此前也指出，预计 mHC 和 Engram 的结合将让 DeepSeek-V4 更适合医疗、法律、金融等知识密集型领域的行业大模型训练。

在软件领域，去年上半年，财联社记者在调研某 A 股软件公司时注意到其办公室内部墙壁上张贴的业务建议中提到，所有工作的目标和内容都关联到 DeepSeek，所有工作的过程和方法都充分运用 DeepSeek。

图片来源：财联社记者/摄

腾讯元宝去年 12 月发布的《元宝×DeepSeek 年度报告》称，自去年 2 月接入 DeepSeek 以来，元宝持续更新 DeepSeek 的最新模型，用户规模逐步扩大，报告发布当天使用量达到新高，较年初增长超过 100 倍。目前，元宝在国内原生 AI 应用中处于前三的位置。

硬件方面，一体机这一品类也因为 DeepSeek 走红。据媒体不完全统计，截至去年 2 月底，就有超 60 家企业宣布基于 DeepSeek 推出一体机。市面上常见的一体机分为推理、训推两种，内置 DeepSeek-R1 32B、70B、满血版 671B 等不同尺寸模型。

去年年中，OPPO 方面透露，旗下人工智能助手「小布助手」系全球接入 DeepSeek 设备量最大的手机智能助理。

站在开发者视角，张亮向财联社记者提到这一群体对 DeepSeek-V4 的期待：开发者比较关注新模型在参数维度上是否更加全面。

他介绍，千问在开发者群体中的应用范围非常广，是因为模型参数涉猎的范围非常广。「哪怕是一个非常低配的 GPU，也能够去找到对应参数的小模型去部署。但是 DeepSeek 是缺乏这样的小模型参数的，对于中小企业、开发者不太友好。」

此前，DeepSeek 凭借开源策略和极致性价比，在全球建立了扎实口碑。而对于 DeepSeek-V4，野村证券分析，其核心价值在于通过底层架构创新推动 AI 应用商业化落地，赋能本土算力硬件与 AI 应用双向发展。

DeepSeek-V4 虽迟但到！百万上下文成标配华为昇腾和英伟达均被写进其技术报告

专业财经网站

方舟日历

2026 年 5 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

DeepSeek-V4 虽迟但到！百万上下文成标配 华为昇腾和英伟达均被写进其技术报告

2 月 11 日灰度测试版 DeepSeek 的回复

2 月 14 日灰度测试版 DeepSeek 的回复

图片来源：财联社记者/摄

专业财经网站

方舟日历

标签

DeepSeek-V4 虽迟但到！百万上下文成标配华为昇腾和英伟达均被写进其技术报告