• 隐私政策
  • 联系我们
  • 关于我们
2026 年 5 月 8 日 星期五
聚赢方舟
广告
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
聚赢方舟
No Result
View All Result
Home 快讯

DeepSeek-V4 虽迟但到!百万上下文成标配 华为昇腾和英伟达均被写进其技术报告

by 聚赢方舟
2 周 ago
in 快讯
Reading Time: 2 mins read
A A
分享至微博分享给朋友

ADVERTISEMENT

财联社 4 月 24 日讯 (记者 付静)今日上午深度求索官宣,全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源,API 服务也已同步更新。据称,DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现了国内与开源领域的领先,深度求索官方称 「迈入百万上下文普惠时代」。

DeepSeek 可谓 2025 年科技圈的 「顶流」,今年初曾有消息传出 DeepSeek-V4 将在今年春节前后发布,一时间业内讨论度升温,大模型行业竞争也空前激烈,新产品扎堆上线、C 端营销玩法丰富、新概念层出不穷、技术谱系加速扩展。不过时至今日,DeepSeek-V4 才终于亮相。

「每家厂商看它其实都有压力。」 一位长期与几家国产模型厂商、互联网大厂合作的 AI 产业链人士向财联社记者如此形容 DeepSeek。

财联社记者此前多方采访获悉,通过接入 DeepSeek 并将其与多款国产大模型进行协同应用,国内不少垂类平台、场景实现了成本与效率的兼顾。因此 DeepSeek 的下一代旗舰模型也受到用户期待,其中,DeepSeek-V4 的上下文长度、Agent 能力、推理成本、AI 编程能力、多模态能力、模型参数维度等均是行业关注重点。

DeepSeek 时刻再到来

深度求索方面介绍,DeepSeek-V4 模型按大小分为 DeepSeek-V4-Pro、DeepSeek-V4-Flash 两个版本,上下文长度均为 1M(一百万)。「从现在开始,1M 上下文将是 DeepSeek 所有官方服务的标配。」

DeepSeek-V4-Pro 的最大亮点在于 Agent 能力大幅提高。在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。

同时,DeepSeek-V4-Pro 在世界知识测评中,大幅领先其他开源模型,仅稍逊于闭源模型 Gemini-Pro-3.1。推理性能方面,其在数学、STEM、竞赛型代码的测评中超越了当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。

相比之下,DeepSeek-V4-Flash 则被称为是 「更快捷高效的经济之选」,模型参数和激活更小。

值得关注的是 DeepSeek-V4 的结构创新。

据称,DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力 (DeepSeek Sparse Attention),实现长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。

财联社记者还注意到,深度求索罕见地将华为昇腾和英伟达共同写进 DeepSeek-V4 技术报告:「我们在英伟达 GPU 和华为昇腾 NPU 平台上验证了细粒度 EP(专家并行) 方案。」

image

DeepSeek 表示,受限于高端算力,目前 DeepSeek-V4-Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。

DeepSeek-V4 的亮点还在于 Agent 能力,其针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 进行了适配和优化,在代码任务、文档生成任务等方面表现均有提升。

财联社记者注意到,自今年 1 月以来,前述的 DeepSeek-V4 部分技术创新点已经被 「剧透」。

2 月 11 日,DeepSeek 的 App 端和网页端已经悄然开始灰度测试一项重大升级。财联社记者实测了解到,模型上下文窗口长度直接增至 1M token。DeepSeek 称,「一次性读完 《三体》 三部曲没问题,70 万个中文字符以内随便发。」 此外,版本模型知识库截止时间更新至 2025 年 5 月。

image

2 月 11 日灰度测试版 DeepSeek 的回复

在此之前,DeepSeek 还罕见地连发两篇论文,公司创始人梁文锋均署名参与。

其中,第一篇论文公开的 mHC(Manifold-Constrained Hyper-Connections,流形约束超连接),解决了大规模模型训练中的稳定性问题;第二篇论文提出了名为 Engram(条件记忆) 的全新模块,其颠覆性在于实现了适配超长上下文场景的 「存算分离」。DeepSeek 实测数据显示,即使挂载了 100B(千亿) 参数的 Engram 表到 CPU 内存,相比于纯 GPU 推理,吞吐量的下降不到 3%。

野村证券在一份研报中预测,V4 在技术路径上将融合 mHC 和 Engram,其技术突破将有效打破 「芯片墙」 与 「内存墙」 的桎梏。

据了解,DeepSeek 的 V 系列是通用大模型的主线迭代版本,擅长百科、写作、代码生成等常规任务,响应速度快。2024 年初、年中、年末,DeepSeek-V1、V2、V3 分别上线。DeepSeek 的 R 系列则侧重推理增强,擅长数学、物理、逻辑谜题等需要分步思考的任务,会展示详细的 「思维链」。去年 1 月 22 日,DeepSeek-R1 相关论文发布。

从 DeepSeek 迭代进展看,去年 V 系列先后完成小版本升级 (版本号 DeepSeek-V3-0324)、发布 DeepSeek-V3.1、更新至 DeepSeek-V3.1-Terminus 版本、发布 DeepSeek-V3.2-Exp 模型 (实验性版本)、发布正式版 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 等动作。

值得一提的是,目前 DeepSeek 仍未上线多模态能力,专注于纯文本和语音交互。

此前,财联社记者与灰度测试版 DeepSeek 对话,其表示,自身还不具备 「原生」 的多模态理解能力。财联社记者进一步询问当前版本号,其回应:「关于我目前的具体版本,情况有些特殊:这次更新后,我并没有一个像 V4 或 R1 那样具体的版本号。」

image

2 月 14 日灰度测试版 DeepSeek 的回复

AI 产品经理张亮告诉财联社记者,「未来要实现 AGI,AI 大模型一定是多模态融合的方向,这是一个共识。多模态于 DeepSeek 而言可能是绕不过去的一个能力,未来不仅仅是要理解文本,还能理解图片、视频甚至物理事件。」

行业将迎新一轮 「洗牌」?

深度求索官方在 DeepSeek-V4 官宣文稿的最后,提到一句出自 《荀子·非十二子》 的 「不诱于誉,不恐于诽,率道而行,端然正己。」

过去几个月,业内不断传出 DeepSeek-V4「跳票」、公司人才流失严重、对外寻求融资、去 CUDA 化等消息。《财经》 杂志今日上午发布的独家消息称,DeepSeek 计划融资 18 亿美元,投资方为阿里和腾讯。

一向较为低调的深度求索似乎用上述 16 个字做出了回应,背后深意值得品味。

那么,DeepSeek-V4 的问世,是否可能引发行业的新一轮洗牌?

在张亮看来,会不会引发新一轮洗牌,重点还是看 DeepSeek-V4 整个范式、代际上是否有重大提升。他提到,参考去年备受瞩目的 DeepSeek-R1,思维链和推理成本大幅下降就是明显的两点提升。

不过 IDC 中国研究总监卢言霞则告诉财联社记者,这款‌被寄予厚望的新品 「谈不上会对市场格局带来大的洗牌,因为 DeepSeek 已经是数一数二了。」

此前,卢言霞表示,面对 DeepSeek-V4,几家大厂 「一定会有压力」。原因在于,DeepSeek 是开源模型,而当前行业企业用户倾向于私有化部署,一般会选择开源模型。「所以如果 DeepSeek 继续保持技术领先优势,那它有望成为事实上的 Top1 大模型。」

财联社记者也从业内获悉,随着模型上限不断接近、模型更迭更加频繁,各厂商如何结合自身优势,借势模型能力的提升巩固生态占位,或将是下半场竞争的核心。

回顾 2025 年初,凭借着开源和低成本的优势,DeepSeek 曾打破了原有市场格局,科技巨头和头部初创模型厂商纷纷感受到压力。

2026 年则更像是中国 AI 模型产品 「大年」。

2 月,或是由于业内传言 DeepSeek-V4 即将发布消息,国内几家科技巨头趁着春节再度打响流量入口战。从成效来看,各厂商的营销投入推动了 AI 应用普及,豆包、元宝、千问与 DeepSeek 均跻身 「月活跃用户 (MAU) 亿级俱乐部」。

同时,在产品层面,字节跳动视频生成模型 Seedance 2.0、图像模型 Seedream 5.0 Lite 引发广泛关注,2 月 14 日豆包大模型 2.0 正式发布。除夕夜,阿里还开源了新一代千问 Qwen3.5 模型。

几乎同一时间,几家模型厂商也抛出重磅炸弹,Kimi K2.5、GLM-5、MiniMax M2.5 等模型密集发布。

而在本月,包括 Qwen3.6-Plus、Xiaomi MiMo-V2.5、Hy3 preview 在内的多款模型也发布。

技术谱系加速扩展

财联社记者观察到,自 ChatGPT 引爆此轮人工智能浪潮以来,产业创新迭代令人应接不暇,各头部厂商均在持续刷新各方向 SOTA(state-of-the-art,当前最高水平)、加速推动技术谱系扩展,特别是上下文、Agent 能力等方面在近期受到关注。

上下文 (Context) 方面,从行业进展看,谷歌 Gemini 系列于 2024 年最早支持百万级超长上下文,今年 2 月发布的 Claude Opus 4.6 刚刚实现此能力。

2 月初,腾讯首席 AI 科学家姚顺雨执掌 AI 之后的第一项公开署名研究发布,同样聚焦上下文。其团队指出,「要让大模型学会从上下文中学习,远比我们想象的要难。并且,即便抹平了上下文带来的信息差,模型也未必能解决问题,这说明模型在上下文利用上,依然存在显著的能力短板。」

Agent 方面,开源 AI 智能体 OpenClaw「龙虾」 成为现象级产品,即便并非是一款适合普通消费者的产品,但也推动了智能体的普及。

「3 月开始 『龙虾』 爆火,4 月很快就回归了理性,热度有所下降,不过产品的演化速度其实一点都没有降低。我们的初步结论就是,『龙虾』 所带来的智能体的技术革命是不可逆转的。」 英特尔中国区技术部总经理高宇对财联社记者表示。

Skills 方面同样热度不低。

Agent Skills 由元数据 (简要描述)、可配置脚本、执行模板和详细说明等构成,支持复杂工作流的打包与复用,关键优势在于可控性,通过结构化能力模块与思维链编排机制,使大模型具备可控、可复用、可持续优化的研究执行能力,已应用于不少垂类场景,众多厂商正在打造 AI Skill 生态,涉及智能搜索、视频快剪、游戏辅助、安全护栏等多个场景。

此前,财联社记者从金融科技服务商进门方面了解到,其 AI 产品 「进宝」 的 「投研大脑」 能力就类似于 Agent Skills。「从行业进化角度看,Skills 将推动 AI 应用从通用聊天走向领域专家;通过将特定工作流程固化为可复用的模块,解决了通用模型懂道理却不会按你的规矩干活的核心痛点;让行业竞争壁垒从比拼基础模型大小,转向比拼高质量、专业化 Skills 生态的构建。」 该公司 CTO 姜锐锋介绍。

DeepSeek 在多领域 「出圈」

当前,2025 年科技圈 「顶流」DeepSeek 的能力已在多领域 「出圈」。

DeepSeek-V3 上线后,随后 DeepSeek-R1 在去年春节前夕横空出世,引发全球关注,英伟达市值单日蒸发 5930 亿美元。从随后各厂商拥抱 「顶流」 的进展看,去年春节期间由科技公司打头阵,三大运营商、阿里、腾讯、字节、百度等旗下云平台、应用端产品等率先接入 DeepSeek-R1/V3,随后各地政府、央国企等也均在加速适配 DeepSeek。

站在垂类应用视角,「不管是从归纳总结还是生成最终的回复上,DeepSeek 对于投研行业的适配度还是很高的。」 姜锐锋介绍,其公司的 AI 产品方案更多地是多模型协同完成,包括用 DeepSeek 完成语义路由的能力,匹配最能解决用户问题的投研思维链,用 Kimi k2.5 处理投研工具的调用,让豆包模型对工具返回结果做裁剪,最终由 DeepSeek 来汇总输出。这不仅解决了单一模型的能力问题,更通过分工隐含地兼顾了成本与效率。

野村证券研报此前也指出,预计 mHC 和 Engram 的结合将让 DeepSeek-V4 更适合医疗、法律、金融等知识密集型领域的行业大模型训练。

在软件领域,去年上半年,财联社记者在调研某 A 股软件公司时注意到其办公室内部墙壁上张贴的业务建议中提到,所有工作的目标和内容都关联到 DeepSeek,所有工作的过程和方法都充分运用 DeepSeek。

image

图片来源:财联社记者/摄

腾讯元宝去年 12 月发布的 《元宝×DeepSeek 年度报告》 称,自去年 2 月接入 DeepSeek 以来,元宝持续更新 DeepSeek 的最新模型,用户规模逐步扩大,报告发布当天使用量达到新高,较年初增长超过 100 倍。目前,元宝在国内原生 AI 应用中处于前三的位置。

硬件方面,一体机这一品类也因为 DeepSeek 走红。据媒体不完全统计,截至去年 2 月底,就有超 60 家企业宣布基于 DeepSeek 推出一体机。市面上常见的一体机分为推理、训推两种,内置 DeepSeek-R1 32B、70B、满血版 671B 等不同尺寸模型。

去年年中,OPPO 方面透露,旗下人工智能助手 「小布助手」 系全球接入 DeepSeek 设备量最大的手机智能助理。

站在开发者视角,张亮向财联社记者提到这一群体对 DeepSeek-V4 的期待:开发者比较关注新模型在参数维度上是否更加全面。

他介绍,千问在开发者群体中的应用范围非常广,是因为模型参数涉猎的范围非常广。「哪怕是一个非常低配的 GPU,也能够去找到对应参数的小模型去部署。但是 DeepSeek 是缺乏这样的小模型参数的,对于中小企业、开发者不太友好。」

此前,DeepSeek 凭借开源策略和极致性价比,在全球建立了扎实口碑。而对于 DeepSeek-V4,野村证券分析,其核心价值在于通过底层架构创新推动 AI 应用商业化落地,赋能本土算力硬件与 AI 应用双向发展。

聚赢方舟

专业财经网站

聚赢方舟 (arkxx.com) 网站是长沙聚赢方舟文化传媒有限公司旗下运营的财经资讯门户网站。聚赢方舟致力于为用户提供全面而深入的财经资讯与金融数据分析。网站汇集了最新的市场行情、股票动态、投资策略以及经济趋势,为投资者和财经行业人士提供及时的新闻参考。网站通过高效的数据处理与分析工具,聚赢方舟帮助用户把握市场机会,优化投资决策。

此外,网站还定期发布专业的市场评估报告和财经评论,确保用户能够获得最准确的市场洞察。

方舟日历

2026 年 5 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 4 月    

标签

中国 中国企业 也不 买了 互联网 假日 养老金 北大 千元 印度 反超 奶茶 家族 工龄 怎么回事 或将 房价 房贷 新能源 新闻 日本 更大 有什么 村官 来了 楼市 江苏 沙特 浙江 特斯拉 电动车 石油 美元 美国 美籍 节日 芯片 让人 越南 长假 防晒 阿里 阿里巴巴 院士 首富

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

No Result
View All Result
  • Home

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

此网站使用 cookie。继续使用本网站即表示您同意使用 cookie。访问隐私和 cookie 策略.。