• 隐私政策
  • 联系我们
  • 关于我们
2026 年 6 月 25 日 星期四
聚赢方舟
广告
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
聚赢方舟
No Result
View All Result
Home 商业动态

梁文锋推迟 V4,是为了根治龙虾的健忘症?

by 聚赢方舟
3 月 ago
in 商业动态
Reading Time: 2 mins read
A A
分享至微博分享给朋友


ADVERTISEMENT

文 | 字母 AI

DeepSeek 什么时候发 V4?AI 圈所有人都在猜,但正确答案可能只有梁文锋知道。

豆包、千问、元宝…… 无论大厂还是小厂,他们都在在春节期间扎堆发布新版本,生怕晚一步就被 V4 的光芒盖过。

换成任何一个正常的 CEO,面对这种全行业翘首以盼的局面,早就把半成品推出去了。

先占住声量,再慢慢迭代,这是互联网行业的基本操作。

但梁文锋偏不。跟他关系近的同行说了句大实话:“ 团队稳,底子厚,不会草率发布。”

外媒报道,V4 是架构级重构。包含 1 万亿参数、百万上下文、原生多模态,并且将于 4 月份发布。

这次迭代的核心叫做 LTM,Long-Term Memory,即长期记忆。

LTM 是一套在模型架构内部实现持久化记忆的系统。它能让 AI 跨对话、跨任务地记住用户是谁、聊过什么、偏好什么。像人一样把重要的东西沉淀下来,而不是每次开机都从零开始。

而这个能力,恰恰是 OpenClaw 最缺的东西。

虽然 OpenClaw 可以替人干活,但它的记忆系统本质上只是往本地 Markdown 文件里写笔记,工作时会持续发送这个笔记到大模型里,这就导致用 OpenClaw 越久,发送记忆所消耗的 token 就越多。

整个社区都在想方设法地去解决这个问题,给它打补丁、装插件、装 Skill,却没人能从根上解决问题,因为问题出在模型本身,它天生不记事。

LTM 要做的,就是从架构层把这个病治好。

此次更新所带来的挑战,远超常规的版本迭代,而且模型的情感交互、个性化记忆等模块尚未完全迁移,还需要进一步调优。

因此梁文锋不是在拖延,而是在克制。

在一个所有人都在比谁先发、谁声量大的行业里,梁文锋选择等所有零件都对了再出手。

R1 之所以能一炮封神,靠的不是抢跑,而是一出手就让对手无话可说。

他显然打算用同样的方式对待 V4—— 要么不发,要发就是王炸。

01 梁文锋到底在憋什么

OpenClaw 的爆火让大家认识到了这样一个事,当 AI 真的开始替人干活,模型对上下文的理解和记忆能力就不再是加分项,而是决定它能不能用的底线。

一个记不住上文的 agent,每隔几轮就会重复犯错、丢失任务状态、忘记你刚才说过的话。

所以过去两年,业界也推出了不少的 LTM 方案。

比如伯克利团队在 2023 年提出的 MemGPT,借鉴虚拟内存的思路,让模型自己决定什么时候把哪些信息从外部存储调入上下文窗口、什么时候换出去。

2025 年发布的 Mem0,则是把这条路往工程化推了一步,在 LOCOMO 基准上比 OpenAI 内置记忆高出 26%,token 消耗减少 90%,这也是现如今 OpenClaw 社区用得最多的记忆插件。

前两天还有用扩散激活模拟人类联想式记忆提取的 SYNAPSE,以及用递归语义压缩解决记忆膨胀的 SimpleMem。

但所有这些方案都有一个共同的天花板,那就是它们都是在模型外部运行的中间件。

记忆的提取、压缩、检索,全部由外挂系统完成,模型本身不参与。因此,记忆的质量完全取决于外挂系统的工程水平,模型得到的记忆,也就参差不齐。

并且,所有记忆最终都要通过上下文窗口注入模型,这和 OpenClaw 碰见的问题一样,记忆越多,那么 token 成本也就越高。

还有一点,模型无法在外挂记忆上进行“ 学习”。因为在这个过程中,模型做的事情是在读别人帮它整理好的笔记,而不是真的把经验内化成了能力。

梁文锋要走的,很可能是一条完全不同的路。

从梁文锋署名的 Engram 论文和 V4 架构泄露来看,DeepSeek 的方向不是在模型外面搭记忆系统,而是把记忆能力直接嵌入模型架构本身。

Engram 已经证明,在 Transformer 内部可以开辟一块专用的条件记忆空间,用 O(1) 的哈希查找来存取静态知识,在调用已存好的知识时,还不占用上下文窗口的容量,也不增加推理的计算成本。

更关键的是,Engram 的“ 无限记忆机制” 实验表明,这块记忆空间的容量可以近乎无限地扩展,且模型的推理开销保持恒定。

我说得再直白一点,现在的模型想“ 记住” 一件事,唯一的办法是把它塞进对话窗口里,窗口满了就得扔东西。

Engram 相当于给模型装了一块独立的硬盘,你可以把记忆存在这个外部的存储里,就不用堆在你电脑本身的硬盘中。当你想调取某一个记忆的时候,你把这块硬盘接上就行。

而且这块硬盘理论上可以无限扩容,查找速度恒定不变。

这条路如果走通,意味着 DeepSeek 跳过了整个“ 外挂记忆” 的技术范式,直接进入了“ 原生记忆” 的时代。

如果你了解 OpenClaw,你会发现梁文锋他瞄准的,恰恰是 OpenClaw 最薄弱的一环。OpenClaw 让 AI 有了手脚,却没给它一颗能记事的大脑。

OpenClaw 的记忆系统有三个结构性缺陷。

第一个是压缩损耗。

上下文窗口塞满后,OpenClaw 会自动把旧对话压缩成一段摘要来腾空间。事实保留了,但对话的脉络,全部丢失,而且不可逆。

换句话说,你们在讨论什么、决策的推理链条、语气和优先级都没有了,也都找不回来了。

比如压缩前,agent 记得一套完整的调试方案,压缩后只剩一句话,“ 用户在调试一个 bug”,具体的排查路径全没了。

第二个是检索失效。

记忆文件用几周就堆到几百条,靠向量相似度检索召回。可是向量检索只能匹配语义相近的片段,无法理解条目之间的逻辑关系。

比如说我用 OpenClaw 做了三个方案,这三个方案分散在不同文件里,和客户敲定的是最后一个方案。当我后来想检索敲定的方案时,由于这三个方案都是用来发给客户的,就有可能只检索命中第一个方案或者第二个方案。

第三个是记忆容量有上限。

OpenClaw 的记忆分两层:核心记忆 (MEMORY.md) 每次会话启动时全量注入上下文,日志记忆则通过搜索工具按需召回。

听起来合理,然而核心记忆有硬性上限,单文件 20000 字符截断,所有 bootstrap 文件合计不超过 150000 字符。

可是你用得越久,MEMORY.md 越长,要么被截断丢信息,要么每次会话的 token 消耗线性增长。

还没完,日志那边,按需检索的质量完全取决于模型自己的判断,它觉得不相关就不召回,哪怕信息确实存在。很容易就会把重要的信息给丢掉。

说白了,这三个问题是同一件事:窗口就那么大,往里塞的东西越多,要么记错,要么找不到,要么太贵 OpenClaw 的记忆不是“ 记住了”,而是“ 抄了一堆笔记然后翻不到”。

如果 V4 真的在架构层面跑通了这条路,那它不仅解决 OpenClaw 的问题,还能让模型变成“ 可成长的模型”。

用得越久越懂你。这和当前所有大模型的使用体验有本质区别,因为现在的模型无论多强,每次打开都是一张白纸。

腾讯的一项最新研究,从另一个方向印证了这条路的价值。

从 OpenAI 加入腾讯担任首席 AI 科学家的姚顺雨,在 2 月份的时候发布了他入职后的第一篇署名论文。

论文的名字叫 CL-bench,全称 Context Learning Benchmark,专门测一件事,就是大模型能不能从上下文里真正学到东西。

不是考它背了多少知识,而是考它能不能从你给的材料里现学现用。

结果很难看。

所有前沿模型的平均正确率只有 17.2%。正确率最高的模型是 GPT-5.1,可它也只做对了 23.7%。换句话说,你精心准备了一份详尽的背景资料喂给 AI,它有超过八成的概率没有真正“ 学会”。

姚顺雨在论文中的判断是,当前 AI 与真正智能之间的鸿沟,不在于知识的多少,而在于学习的能力。一个装满知识却不会学习的 AI,就像一个背了整本字典却不会写作的人。

他在 AGI-Next 前沿峰会上也说过类似的观点,他认为大模型迈向高价值应用的核心瓶颈,就在于能否“ 用好上下文”。

如何记忆,很可能成为 2026 年的核心主题。一旦上下文学习与记忆变得可靠,模型或许就能实现自主学习。

梁文锋不可能不懂这个道理,这就是为什么发布日期一推再推。

02 DeepSeek 要补的课

愿景归愿景,现实归现实。

在梁文锋闭关的这一年里,对手们没有停下来等他。DeepSeek 要补的课,比外界想象的多。

第一块短板是多模态,这也是最大的一块。

DeepSeek 到今天为止,还是一个纯文本模型。它没办法看图、看视频、听语音。

倒不是说 DeepSeek 完全没有视觉能力。在今年 1 月的时候,他们发布了 OCR 2,这是一个 3B 参数的文档理解小模型。它的核心是用一个叫 DeepEncoder V2 的编码器替代了传统的视觉编码器,让模型能像人一样按阅读顺序理解文档页面。

仅在文档解析的基准测试上,OCR 2 用最少的视觉 token 战胜了 Qwen3-VL-235B 这种千亿级选手。

但 OCR 2 只能做一件事:把文档里的文字、表格、公式提取出来。本质上是“ 图像→ 文本” 的单向转换,不是通用的视觉理解。

换句话说,OCR 2 证明了 DeepSeek 有能力做好视觉编码,但从“ 能读文档” 到“ 能看视频、听语音、理解自然场景”,中间隔着的不是一步,而是一整个技术代际。

与此同时,其他大厂早就进入了“ 全模态” 时代。

字节的 Seedance 2.0 证明了优秀的多模态模型有多大的用户基础和商业潜力。GPT-5.4 已经原生支持音频、视频和计算机操作。

有消息透露,梁文锋近半年的主要工作之一就是补齐视觉内容处理的短板。

第二块短板是 agent 能力。

DeepSeek 微信公众号自己置顶的文章标题就是“ 迈向 agent 时代的第一步”,这就足以说明梁文锋知道该往哪个方向前进。

随着越来越多的人开始使用 OpenClaw,无论是大厂还是小厂,都在强调自己模型的 agent 能力。

Kimi K2.5 已经能自主调度 100 个子 agent、并行处理 1500 个步骤。ChatGPT 的 agent 功能可以自动填表、订机票、跨网站拉取信息。Claude 推出了 Agent Teams,多个 AI 协同完成复杂任务。

第三块短板是 AI 编程。

这是 2026 年发展最快、商业化最成熟的赛道。

在编程基准测试 SWE-bench Verified 上,Claude Opus 4.6 得分 80.8%,GPT-5.3 Codex 约 80%,DeepSeek V3.2 只有 73.1%。

在更难的基准 SWE-bench Pro 上测试,DeepSeek V3.2 得分为 40.9%,远低于 GPT-5.4 的 57.7%。

更关键的是,行业已经从“Vibe Coding”,进化到了“Agentic Engineering”,让 AI 独立完成工程级任务。

智谱的 GLM-5 论文标题就叫 《From Vibe Coding to Agentic Engineering》,它能连续 24 小时跑代码、700 次工具调用、800 次上下文切换,从零构建出一个 GBA 模拟器。

此前曾有爆料称,DeepSeek-V4 的内部测试结果,在编程能力上超越了 Claude Sonnet 3. 。可如今,Claude Sonnet 3.5 已经被 Anthropic 官方完全停用了。

第四块短板是 AI 搜索。

现在几乎所有 ChatBot 产品都是联网的,你已经见不到还把模型联网单独设为一个开关的 APP 了。

OpenAI 有 ChatGPT Search,Google 有 Gemini Embedding 2 搜索。DeepSeek 的搜索能力一直是短板,而且其搜索结果经常会出现幻觉。

Vectara 的测试显示,DeepSeek R1 的幻觉率高达 14.3%,是 V3(3.9%) 的近四倍。

在学术引用检索的测试中,这个数字更夸张,其引用的结果中,91.43% 都是错的,包括但不限于捏造论文标题、虚构 DOI、张冠李戴作者。

DeepSeek 自己也承认,幻觉是当前阶段“ 不可避免的” 问题。

DeepSeek 在它没有自己的搜索基础设施,只能依赖第三方接口,信息源的质量不可控。

模型本身的事实校验能力不够强,即使拿到了正确的检索结果,也可能在生成环节引入错误。这两个问题叠加在一起,就是用户体验上的“ 搜了也不准”。

在 agent 时代,搜索不是加分项,而是必选项。

DeepSeek 的短板,没有一块是小修小补能解决的。梁文锋不是在做一个更强的 V 系列模型,他是在同时打四场仗。

4 月,箭在弦上。但如果再跳票,也不必意外。对梁文锋来说,“ 不发” 永远比“ 发错” 重要。

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

聚赢方舟

专业财经网站

聚赢方舟 (arkxx.com) 网站是长沙聚赢方舟文化传媒有限公司旗下运营的财经资讯门户网站。聚赢方舟致力于为用户提供全面而深入的财经资讯与金融数据分析。网站汇集了最新的市场行情、股票动态、投资策略以及经济趋势,为投资者和财经行业人士提供及时的新闻参考。网站通过高效的数据处理与分析工具,聚赢方舟帮助用户把握市场机会,优化投资决策。

此外,网站还定期发布专业的市场评估报告和财经评论,确保用户能够获得最准确的市场洞察。

方舟日历

2026 年 6 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 5 月    

标签

中国 中国企业 也不 买了 互联网 假日 养老金 北大 千元 印度 反超 奶茶 家族 工龄 怎么回事 或将 房价 房贷 新能源 新闻 日本 更大 有什么 村官 来了 楼市 江苏 沙特 浙江 特斯拉 电动车 石油 美元 美国 美籍 节日 芯片 让人 越南 长假 防晒 阿里 阿里巴巴 院士 首富

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

No Result
View All Result
  • Home

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

此网站使用 cookie。继续使用本网站即表示您同意使用 cookie。访问隐私和 cookie 策略.。