• 隐私政策
  • 联系我们
  • 关于我们
2026 年 6 月 20 日 星期六
聚赢方舟
广告
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
  • 首页
  • 快讯 7x24
  • 行业新闻
  • 商业动态
  • 股市风云
  • 期货研报
  • 基金财讯
  • 贵金属
No Result
View All Result
聚赢方舟
No Result
View All Result
Home 商业动态

用结构替代数据,因果世界模型如何重塑具身智能大脑

by 聚赢方舟
1 天 ago
in 商业动态
Reading Time: 2 mins read
A A
分享至微博分享给朋友


ADVERTISEMENT

(本文作者为 Leo 张 ToB 杂谈,钛媒体经授权发布)

2026 年正在成为具身智能的落地元年。

年初至今,一大批企业密集完成新一轮融资,产业信号再明显不过:这一波浪潮,已经从实验室冲进了商业化的前夜。然而,热钱涌入的同时,一个老问题始终没有解决—— 机器人的“ 身体” 越来越强,但“ 大脑” 还远远不够聪明。

就在红杉资本 AI Ascent2026 大会上,英伟达机器人方向负责人 JimFan 给出了一个极具争议的论断:“VLA 已死,世界动作模型 WAM 当立。” 这句话在行业内外迅速掀起轩然大波,但争议的背后,是行业对现有技术路线已经到了忍耐极限。

没隔多久,图灵奖得主 YannLeCun 离开 Meta 后创立的 AMILabs,锁定的也是世界模型及相关方向,即使公司还没拿出公开模型,但估值已经冲到了 35 亿美元。

从美国到中国,从学界到产业界,一场围绕机器人大脑技术路线的角逐已经全面展开。

而就在多数人涌向世界模型这条大道时,创立于 2026 年的新一代人工智能公司 Aether AI,其创始人、加州大学圣地亚哥分校 (UCSD) 助理教授黄碧薇选了一条更少人走的路:构建以因果智能为核心的下一代 AI 范式。

黄碧薇师从多位因果学术奠基人 Kun Zhang, Clark Glymour, Peter Spirtes,和 Bernhard Schölkopf,在她看来,因果世界模型并不是对现有技术路线的简单改良,而是从"相关性学习"到"因果性理解"的底层范式转移。这套逻辑,正在成为具身智能“ 大脑” 路线之争中一条独立的技术路径。

从“背答案” 到理解世界

在黄碧薇的定义中,因果世界模型必须同时做到三件事:从观测数据 (视频像素或文字符号) 中识别出真正的因果变量,找出这些变量之间的因果结构,然后建模整个系统的因果动力学,也就是系统如何随时间演化、如何随行动而改变。

听上去很抽象,但放在机器人抓取杯子的例子中就很好理解。传统的 VLA(Vision-Language-Action) 模型,学习方式本质上是在“ 背” 数据:把“ 这个角度、这个光线下的杯子抓取动作” 记下来,下次遇到一样的场景就能复现。但光照变了、桌面高了、杯子换了个材质,模型就抓瞎,因为它从没“ 想清楚” 过手对杯壁施加摩擦力、杯子被抬升这一整套因果链条到底是什么。

过去几年里,VLA 模型一直是构建机器人大脑的主流范式。它将视觉感知、语言理解和动作生成三个模块集成在一起,通过大规模演示数据的模仿学习,让机器人能够执行各种复杂任务。

问题在于,泛化能力跟不上。VLA 路线天然偏重语言部分,底层逻辑是把复杂的物理世界先翻译成语言,再靠海量动作数据做模仿学习。这么做的好处是,让机器人在固定任务上快速上手,但一旦面对陌生环境或长尾场景,短板就暴露无遗—— 它对物理世界缺少真正的理解。

随着机器人的硬件日趋成熟,越来越多的行业人士认识到,具身智能真正的瓶颈不在“ 身体” 而在“ 大脑”,大脑的通用与泛化能力才是亟待突破的关键节点。行业迫切需要一条能让机器人真正“ 理解” 物理世界的技术路线。

因果世界模型走的就是这条路。用黄碧薇的话来说,这套模型的核心是让机器人拥有因果认知能力—— 不会因为桌面高了 1 厘米或者碰到一个从没见过的场景就手足无措。它理解的是物体受力后运动的底层规律,物理参数变了,也能举一反三。

黄碧薇表示,相比传统模型是用暴力数据拟合来掩盖结构的缺失,因果模型是用智能的结构设计替代盲目的大数据训练。

换句话说,一旦模型厘清了背后的因果机制,环境变化通常只影响部分因果环节,不需要推倒重来。只需少量新数据就能完成更新。在早期小规模模型上,这种因果方法已经带来 25%-50% 成功率提升。

这组数字对应的产业现实是:具身智能极度“ 数据饥渴”。斯坦福的 ALOHA 等项目证明了遥操作数据收集的昂贵和低效,而一旦因果模型能够在更大规模场景中验证类似的数据效率,它对整个行业的训练成本曲线将产生直接影响。

黄碧薇表示,因果世界模型的核心逻辑在于:打造一个拥有因果认知能力的机器人,它不会因为桌面高了 1 厘米或遇到从未见过的场景就束手无策。它能理解物体受力后运动的底层规律,哪怕物理参数变了,也能举一反三地适应。这正是因果 AI 相较于 VLA 的核心优势—— 泛化能力。“ 我们大概只用了 50 条数据,就把一些之前做不好的操作任务提高了非常多。”

因果智能的另一个长处在于推理深度,大约二十年前,计算机科学家 Judea Pearl 通过发现和系统地研究 「因果阶梯」(Ladder of Causation),在理解因果关系方面取得了突破,该框架着重说明了观察、做事和想象的独特作用。它的认知能力分三个层次:第一层是观察层面的预测,这也是当前 AI 普遍所处的层次;第二层是干预——“ 如果我做了 A,结果会变成什么”;第三层是反事实推理——“ 如果我当初做了 B 而不是 A,结果会不会更好”。第三层正是人脑在做决策前能在意识里预先演练、做出预判的核心机制。

落到机器人身上,就意味着它能在执行抓取之前,先在“ 思维” 中模拟物体的运动轨迹,再选择最优操作路径。黄碧薇把这称为一种“ 物理直觉”。

因果如何从概念变成可训练的系统

因果世界模型的想象力,凝结在一套四层架构之中。

黄碧薇强调,区别于市面零散外挂的因果模块,以及基于现有大模型微调的改良方案,Aether AI 因果世界模型的设计目标从一开始就很明确:把因果认知从理论构想一步步落地为可扩展、可训练的工程化 AI 范式。

“ 四层架构并非独立的模块,它们是彼此支撑、层层递进的技术栈,最终目标是彻底改变底层 AI 算法的认知逻辑。”

第一层是因果驱动的智能体系统。当前主流的智能体系统,运作逻辑本质上还是“ 日志记录加简单回放”—— 把浏览记录、工作日志和上下文信息平铺直叙地存下来,直接用于后续任务。一台机器在某个平台上学会的订票技能,换一个平台就完全失效,而且 Token 消耗惊人。

因果驱动的智能体系统则不同,它从海量信息中提取底层结构化知识。“ 真正的认知源于结构化,而非简单的数据堆砌。” 黄碧薇说。结构一旦被提取出来,跨平台、跨场景时的稳定性会大幅提升。

第二层是因果世界模型。这是整套架构的核心。作为系统的认知核心,这一层负责理解物理世界的运行规律。它接收上层传来的子任务,在内部模拟“ 如果这样做,世界会怎样变化”,然后生成精确的任务指令,驱动上层的智能体系统。黄碧薇认为,当前的大语言模型和 VLA 模型,停留在非常表层的符号处理上—— 它们能读懂“ 因为…… 所以……” 这类连接词,却无法理解这些词语背后真正的物理机制。

因果世界模型的目标,就是从像素层面贯通到物理层面,让模型真正“ 理解” 动作的因果链。

第三层是模块化架构层,触及神经网络本身的架构设计,目标是构建一个真正模块化的神经架构—— 不同区域主管不同功能,区域之间既解耦又协同,共同完成复杂任务。

黄碧薇指出了,当前混合专家模型都存在一个普遍问题,就是专家模型之间功能的高度重叠。一个 10 个专家的 MoE 模型,常常只有一两个专家承担几乎所有工作。因果世界模型追求的是真正的功能性分区,各模块各司其职又相互配合,在保持效率的同时释放更强的复杂认知能力。

第四层是底层基础层,该层基础架构仍以 Transformer 为主。黄碧薇的解释很务实:Transformer 简洁的可扩展性已经经受过千亿级参数的工程考验,没必要推倒重来。

因果 AI 的突破方式是在现有 Transformer 核心架构中引入因果性的刻画维度。通过 Causation Transformer(因果变换器),在保持其可扩展性的前提下,同时考虑时间延迟关系、瞬时影响和隐因子的动态作用,把模型的学习能力从“ 表层词元相关性” 提升到“ 词元级因果性”。

在推进节奏上,黄碧薇告诉笔者,短期内优先集中攻克第一层智能体系统和第二层因果世界模型,预计未来几个月内会公开成果;第三层和第四层的架构及基础设施改造安排在明年。“ 在第一层和第二层的推进中,可以直接利用现有模型作为函数近似器进行优化迭代。” 这意味着因果 AI 并不是一场推倒重来的工程重建,而是一条从相关性范式向因果范式平滑过渡的渐进路径。

具体到数据策略,团队采用模拟数据 (约 50%—60%)、第一人称视角数据 (约 30%) 和遥操作数据 (约 10%—15%) 的混合配比,同时设计了一套“ 数据飞轮” 机制—— 模型本身可以作为视频生成器,产出长尾和边缘场景的数据,反哺自我进化。

Aether AI 的技术路线选择,放在更大的行业背景下看会更有意思。

从产业巨头到学术先驱,大家都在为机器人的“ 大脑” 寻找下一站。黄碧薇选的路径,是让机器人具备因果认知能力。与单纯的世界模型路线不同,因果世界模型强调的是结构化的因果链条,而非在更大规模的数据上继续做相关性学习。

这些差异,决定了面对新环境时的表现完全不同。基于相关性的模型,应对新环境的唯一办法是重新采集大量数据,把全部变量的联合分布从头学一遍。而因果模型厘清因果机制之后,只需部分更新即可。

具身智能需要一个能“ 思考” 的大脑

从行业应用角度看,因果世界模型的价值可以分阶段释放:短期内,企业可将自身领域的特定数据上传微调,获得定制化的世界模型,用于复杂场景的决策辅助;中长期,模型将部署到机器人本体,使其在工业制造、家庭服务、特种作业等场景中展现真正的适应性。

而 Aether AI 也并不打算将自己局限在具身智能上。黄碧薇将公司的长期愿景定位为"打造像 LLM 一样通用的下一个模型范式",具身智能只是第一个落地锚点。未来可以延伸到科学发现、金融建模、数学证明等需要深度推理的领域。

事实上,全球顶尖的 AI 研究机构都已经意识到了因果智能的重要性。OpenAI 在 2025 年成立了专门的因果推理研究团队,DeepMind 将因果发现作为其通用人工智能 (AGI) 路线图的核心组成部分,YannLeCun 更是将因果推理视为世界模型不可或缺的能力。

这些都表明,因果智能已经从学术界的边缘话题,变成了产业界的核心战场。

除此以外,当前投资人对因果重要性的认知也在不断提升,但在 Aether AI 之前,还没有真正哪家跑因果、真正懂因果的人去做因果这件事,许多宣称“ 因果” 的公司只是停留在非常表层的概念使用上。

尽管挑战重重,黄碧薇对因果世界模型的未来仍然充满信心。她认为,AI 的发展已经站在了“ 黎明前夕”。

“ 我相信 VLA 会被更具因果理解能力的架构所取代。” 黄碧薇判断,但她也承认,从相关性到因果性的范式转换不会一蹴而就。就像 LLM 在跑出来之前“ 没人相信,极少有人相信” 一样,因果世界模型也需要一个标志性的时刻来证明自己。

(文|Leo 张 ToB 杂谈,作者|张申宇,编辑丨杨林)

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

聚赢方舟

专业财经网站

聚赢方舟 (arkxx.com) 网站是长沙聚赢方舟文化传媒有限公司旗下运营的财经资讯门户网站。聚赢方舟致力于为用户提供全面而深入的财经资讯与金融数据分析。网站汇集了最新的市场行情、股票动态、投资策略以及经济趋势,为投资者和财经行业人士提供及时的新闻参考。网站通过高效的数据处理与分析工具,聚赢方舟帮助用户把握市场机会,优化投资决策。

此外,网站还定期发布专业的市场评估报告和财经评论,确保用户能够获得最准确的市场洞察。

方舟日历

2026 年 6 月
一 二 三 四 五 六 日
1234567
891011121314
15161718192021
22232425262728
2930  
« 5 月    

标签

中国 中国企业 也不 买了 互联网 假日 养老金 北大 千元 印度 反超 奶茶 家族 工龄 怎么回事 或将 房价 房贷 新能源 新闻 日本 更大 有什么 村官 来了 楼市 江苏 沙特 浙江 特斯拉 电动车 石油 美元 美国 美籍 节日 芯片 让人 越南 长假 防晒 阿里 阿里巴巴 院士 首富

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

No Result
View All Result
  • Home

© 2025 长沙聚赢方舟文化传媒有限公司 by 聚赢方舟 - 湘 ICP 备 2025135270 号-1

此网站使用 cookie。继续使用本网站即表示您同意使用 cookie。访问隐私和 cookie 策略.。