用结构替代数据，因果世界模型如何重塑具身智能大脑

（本文作者为 Leo 张 ToB 杂谈，钛媒体经授权发布）

2026 年正在成为具身智能的落地元年。

年初至今，一大批企业密集完成新一轮融资，产业信号再明显不过：这一波浪潮，已经从实验室冲进了商业化的前夜。然而，热钱涌入的同时，一个老问题始终没有解决—— 机器人的“ 身体” 越来越强，但“ 大脑” 还远远不够聪明。

就在红杉资本 AI Ascent2026 大会上，英伟达机器人方向负责人 JimFan 给出了一个极具争议的论断：“VLA 已死，世界动作模型 WAM 当立。” 这句话在行业内外迅速掀起轩然大波，但争议的背后，是行业对现有技术路线已经到了忍耐极限。

没隔多久，图灵奖得主 YannLeCun 离开 Meta 后创立的 AMILabs，锁定的也是世界模型及相关方向，即使公司还没拿出公开模型，但估值已经冲到了 35 亿美元。

从美国到中国，从学界到产业界，一场围绕机器人大脑技术路线的角逐已经全面展开。

而就在多数人涌向世界模型这条大道时，创立于 2026 年的新一代人工智能公司 Aether AI，其创始人、加州大学圣地亚哥分校（UCSD）助理教授黄碧薇选了一条更少人走的路：构建以因果智能为核心的下一代 AI 范式。

黄碧薇师从多位因果学术奠基人 Kun Zhang, Clark Glymour, Peter Spirtes，和 Bernhard Schölkopf，在她看来，因果世界模型并不是对现有技术路线的简单改良，而是从"相关性学习"到"因果性理解"的底层范式转移。这套逻辑，正在成为具身智能“ 大脑” 路线之争中一条独立的技术路径。

从“背答案” 到理解世界

在黄碧薇的定义中，因果世界模型必须同时做到三件事：从观测数据（视频像素或文字符号）中识别出真正的因果变量，找出这些变量之间的因果结构，然后建模整个系统的因果动力学，也就是系统如何随时间演化、如何随行动而改变。

听上去很抽象，但放在机器人抓取杯子的例子中就很好理解。传统的 VLA（Vision-Language-Action）模型，学习方式本质上是在“ 背” 数据：把“ 这个角度、这个光线下的杯子抓取动作” 记下来，下次遇到一样的场景就能复现。但光照变了、桌面高了、杯子换了个材质，模型就抓瞎，因为它从没“ 想清楚” 过手对杯壁施加摩擦力、杯子被抬升这一整套因果链条到底是什么。

过去几年里，VLA 模型一直是构建机器人大脑的主流范式。它将视觉感知、语言理解和动作生成三个模块集成在一起，通过大规模演示数据的模仿学习，让机器人能够执行各种复杂任务。

问题在于，泛化能力跟不上。VLA 路线天然偏重语言部分，底层逻辑是把复杂的物理世界先翻译成语言，再靠海量动作数据做模仿学习。这么做的好处是，让机器人在固定任务上快速上手，但一旦面对陌生环境或长尾场景，短板就暴露无遗—— 它对物理世界缺少真正的理解。

随着机器人的硬件日趋成熟，越来越多的行业人士认识到，具身智能真正的瓶颈不在“ 身体” 而在“ 大脑”，大脑的通用与泛化能力才是亟待突破的关键节点。行业迫切需要一条能让机器人真正“ 理解” 物理世界的技术路线。

因果世界模型走的就是这条路。用黄碧薇的话来说，这套模型的核心是让机器人拥有因果认知能力—— 不会因为桌面高了 1 厘米或者碰到一个从没见过的场景就手足无措。它理解的是物体受力后运动的底层规律，物理参数变了，也能举一反三。

黄碧薇表示，相比传统模型是用暴力数据拟合来掩盖结构的缺失，因果模型是用智能的结构设计替代盲目的大数据训练。

换句话说，一旦模型厘清了背后的因果机制，环境变化通常只影响部分因果环节，不需要推倒重来。只需少量新数据就能完成更新。在早期小规模模型上，这种因果方法已经带来 25%-50% 成功率提升。

这组数字对应的产业现实是：具身智能极度“ 数据饥渴”。斯坦福的 ALOHA 等项目证明了遥操作数据收集的昂贵和低效，而一旦因果模型能够在更大规模场景中验证类似的数据效率，它对整个行业的训练成本曲线将产生直接影响。

黄碧薇表示，因果世界模型的核心逻辑在于：打造一个拥有因果认知能力的机器人，它不会因为桌面高了 1 厘米或遇到从未见过的场景就束手无策。它能理解物体受力后运动的底层规律，哪怕物理参数变了，也能举一反三地适应。这正是因果 AI 相较于 VLA 的核心优势—— 泛化能力。“ 我们大概只用了 50 条数据，就把一些之前做不好的操作任务提高了非常多。”

因果智能的另一个长处在于推理深度，大约二十年前，计算机科学家 Judea Pearl 通过发现和系统地研究「因果阶梯」（Ladder of Causation），在理解因果关系方面取得了突破，该框架着重说明了观察、做事和想象的独特作用。它的认知能力分三个层次：第一层是观察层面的预测，这也是当前 AI 普遍所处的层次；第二层是干预——“ 如果我做了 A，结果会变成什么”；第三层是反事实推理——“ 如果我当初做了 B 而不是 A，结果会不会更好”。第三层正是人脑在做决策前能在意识里预先演练、做出预判的核心机制。

落到机器人身上，就意味着它能在执行抓取之前，先在“ 思维” 中模拟物体的运动轨迹，再选择最优操作路径。黄碧薇把这称为一种“ 物理直觉”。

因果如何从概念变成可训练的系统

因果世界模型的想象力，凝结在一套四层架构之中。

黄碧薇强调，区别于市面零散外挂的因果模块，以及基于现有大模型微调的改良方案，Aether AI 因果世界模型的设计目标从一开始就很明确：把因果认知从理论构想一步步落地为可扩展、可训练的工程化 AI 范式。

“ 四层架构并非独立的模块，它们是彼此支撑、层层递进的技术栈，最终目标是彻底改变底层 AI 算法的认知逻辑。”

第一层是因果驱动的智能体系统。当前主流的智能体系统，运作逻辑本质上还是“ 日志记录加简单回放”—— 把浏览记录、工作日志和上下文信息平铺直叙地存下来，直接用于后续任务。一台机器在某个平台上学会的订票技能，换一个平台就完全失效，而且 Token 消耗惊人。

因果驱动的智能体系统则不同，它从海量信息中提取底层结构化知识。“ 真正的认知源于结构化，而非简单的数据堆砌。” 黄碧薇说。结构一旦被提取出来，跨平台、跨场景时的稳定性会大幅提升。

第二层是因果世界模型。这是整套架构的核心。作为系统的认知核心，这一层负责理解物理世界的运行规律。它接收上层传来的子任务，在内部模拟“ 如果这样做，世界会怎样变化”，然后生成精确的任务指令，驱动上层的智能体系统。黄碧薇认为，当前的大语言模型和 VLA 模型，停留在非常表层的符号处理上—— 它们能读懂“ 因为…… 所以……” 这类连接词，却无法理解这些词语背后真正的物理机制。

因果世界模型的目标，就是从像素层面贯通到物理层面，让模型真正“ 理解” 动作的因果链。

第三层是模块化架构层，触及神经网络本身的架构设计，目标是构建一个真正模块化的神经架构—— 不同区域主管不同功能，区域之间既解耦又协同，共同完成复杂任务。

黄碧薇指出了，当前混合专家模型都存在一个普遍问题，就是专家模型之间功能的高度重叠。一个 10 个专家的 MoE 模型，常常只有一两个专家承担几乎所有工作。因果世界模型追求的是真正的功能性分区，各模块各司其职又相互配合，在保持效率的同时释放更强的复杂认知能力。

第四层是底层基础层，该层基础架构仍以 Transformer 为主。黄碧薇的解释很务实：Transformer 简洁的可扩展性已经经受过千亿级参数的工程考验，没必要推倒重来。

因果 AI 的突破方式是在现有 Transformer 核心架构中引入因果性的刻画维度。通过 Causation Transformer（因果变换器），在保持其可扩展性的前提下，同时考虑时间延迟关系、瞬时影响和隐因子的动态作用，把模型的学习能力从“ 表层词元相关性” 提升到“ 词元级因果性”。

在推进节奏上，黄碧薇告诉笔者，短期内优先集中攻克第一层智能体系统和第二层因果世界模型，预计未来几个月内会公开成果；第三层和第四层的架构及基础设施改造安排在明年。“ 在第一层和第二层的推进中，可以直接利用现有模型作为函数近似器进行优化迭代。” 这意味着因果 AI 并不是一场推倒重来的工程重建，而是一条从相关性范式向因果范式平滑过渡的渐进路径。

具体到数据策略，团队采用模拟数据（约 50%—60%）、第一人称视角数据（约 30%）和遥操作数据（约 10%—15%）的混合配比，同时设计了一套“ 数据飞轮” 机制—— 模型本身可以作为视频生成器，产出长尾和边缘场景的数据，反哺自我进化。

Aether AI 的技术路线选择，放在更大的行业背景下看会更有意思。

从产业巨头到学术先驱，大家都在为机器人的“ 大脑” 寻找下一站。黄碧薇选的路径，是让机器人具备因果认知能力。与单纯的世界模型路线不同，因果世界模型强调的是结构化的因果链条，而非在更大规模的数据上继续做相关性学习。

这些差异，决定了面对新环境时的表现完全不同。基于相关性的模型，应对新环境的唯一办法是重新采集大量数据，把全部变量的联合分布从头学一遍。而因果模型厘清因果机制之后，只需部分更新即可。

具身智能需要一个能“ 思考” 的大脑

从行业应用角度看，因果世界模型的价值可以分阶段释放：短期内，企业可将自身领域的特定数据上传微调，获得定制化的世界模型，用于复杂场景的决策辅助；中长期，模型将部署到机器人本体，使其在工业制造、家庭服务、特种作业等场景中展现真正的适应性。

而 Aether AI 也并不打算将自己局限在具身智能上。黄碧薇将公司的长期愿景定位为"打造像 LLM 一样通用的下一个模型范式"，具身智能只是第一个落地锚点。未来可以延伸到科学发现、金融建模、数学证明等需要深度推理的领域。

事实上，全球顶尖的 AI 研究机构都已经意识到了因果智能的重要性。OpenAI 在 2025 年成立了专门的因果推理研究团队，DeepMind 将因果发现作为其通用人工智能 (AGI) 路线图的核心组成部分，YannLeCun 更是将因果推理视为世界模型不可或缺的能力。

这些都表明，因果智能已经从学术界的边缘话题，变成了产业界的核心战场。

除此以外，当前投资人对因果重要性的认知也在不断提升，但在 Aether AI 之前，还没有真正哪家跑因果、真正懂因果的人去做因果这件事，许多宣称“ 因果” 的公司只是停留在非常表层的概念使用上。

尽管挑战重重，黄碧薇对因果世界模型的未来仍然充满信心。她认为，AI 的发展已经站在了“ 黎明前夕”。

“ 我相信 VLA 会被更具因果理解能力的架构所取代。” 黄碧薇判断，但她也承认，从相关性到因果性的范式转换不会一蹴而就。就像 LLM 在跑出来之前“ 没人相信，极少有人相信” 一样，因果世界模型也需要一个标志性的时刻来证明自己。

（文｜Leo 张 ToB 杂谈，作者｜张申宇，编辑丨杨林）

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

用结构替代数据，因果世界模型如何重塑具身智能大脑

专业财经网站

方舟日历

用结构替代数据，因果世界模型如何重塑具身智能大脑

从“背答案” 到理解世界

因果如何从概念变成可训练的系统

具身智能需要一个能“ 思考” 的大脑

专业财经网站

方舟日历

标签