文章作者、来源：机器之心因果，可能是机器人走进现实世界的门票。《三体》中有一个著名的「农场主假说」：农场主每天上午 11 点准时给火鸡喂食，一只火鸡科学家连续观察一年后总结出「11 点必有食物」的规律。直到感恩节那天，农场主带来的不再是食物，而是屠刀。这个寓言的原型来自罗素关于归纳问题的「鸡/火鸡」寓言，它揭示了文章作者、来源：机器之心因果，可能是机器人走进现实世界的门票。《三体》中有一个著名的「农场主假说」：农场主每天上午 11 点准时给火鸡喂食，一只火鸡科学家连续观察一年后总结出「11 点必有食物」的规律。直到感恩节那天，农场主带来的不再是食物，而是屠刀。这个寓言的原型来自罗素关于归纳问题的「鸡/火鸡」寓言，它揭示了

从预测到干预，Aether AI为什么押注因果世界模型？

来源：MetaEra

2026/06/24 11:44

阅读时长 31 分钟

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源：机器之心

因果，可能是机器人走进现实世界的门票。

《三体》中有一个著名的「农场主假说」：农场主每天上午 11 点准时给火鸡喂食，一只火鸡科学家连续观察一年后总结出「11 点必有食物」的规律。直到感恩节那天，农场主带来的不再是食物，而是屠刀。

这个寓言的原型来自罗素关于归纳问题的「鸡/火鸡」寓言，它揭示了一个有趣的问题：从过去数据中总结出的相关性，并不等于对世界机制的理解。火鸡的问题不只是样本不够多，而是它没有理解「为什么被喂养」，也没有意识到自己所处系统中的真实因果关系。

今天的 AI，在某种意义上也面临类似处境。

过去几年，大模型让我们看到，规模化学习可以把模式识别推到前所未有的高度。模型可以从海量语料、图像、视频和机器人轨迹中学习复杂规律，并在许多任务上表现出惊人的泛化能力。

但当 AI 开始进入物理世界，环境不再是静态数据集，行动也不再只是生成文本或像素。一次抓取、一次转向，都会改变世界本身。因此，真正的问题不只是模型能否预测下一步，而是模型能否理解自己的行动会如何改写世界。

Aether AI 正是从这一问题切入。

这家公司将自己的技术路线定义为「因果世界模型」（Causal World Models）：相比只预测下一个状态的世界模型，Aether AI 更关心模型能否识别真正影响结果的变量，理解变量之间的因果结构，并在采取行动前模拟不同干预可能带来的后果。

第一个落地场景是 Physical AI——不造机器人本体，而是构建感知与控制之间的智能推理层，让机器人在看到环境之后，不只是判断「下一步最可能发生什么」，而是推演「如果我这样做，世界会如何改变」。

围绕这一目标，Aether AI 正在研发一套从底层表征到上层智能体决策的因果 AI 架构。它让模型从相关性预测走向机制建模，从被动观察走向主动干预，从「模仿过去见过的轨迹」走向「模拟干预后的后果」。

预测未来，是否等于理解因果？

过去三年，AI 在「预测下一步」这件事上取得了惊人的进展。大语言模型预测下一个 token，视频生成模型预测下一段画面，具身模型预测下一个动作，本质上都是从海量数据中学习统计规律，并在当前状态下预测最可能发生什么。

在潜空间里做预测，是其中一个关键进步。以 Yann LeCun 提出的 JEPA 为例，它放弃像素级重建，转而在抽象表征空间中预测缺失、被遮挡或未来的状态表征，让模型更集中地学习语义和结构性信息。

但预测做得再好，仍然有一个边界：它回答的是「接下来大概率会发生什么」，而不是「为什么会发生」。

这两者的区别，在数字世界里可能无关紧要。预测下一个词错了，重新生成就行。但在物理世界里，差距是结构性的。一辆自动驾驶汽车遇到训练数据中极少出现的路面状况，一个机械手面对形状和材质完全不同的容器，一个机器人在长程任务中某一步偏离预期——在这些时刻，仅依赖历史相关性会变得脆弱。

仅靠预测的 AI，至少会遇到四类问题：

哪些变量真正决定了结果？——统计模型可能知道打雷和下雨常一起出现，但未必知道背后的共同原因是雷暴天气系统。
如果主动改变某个变量，结果如何变化？——普通预测模型只能在训练分布覆盖的范围内外推；面对从未出现过的干预，需要更强的结构假设或因果模型。
当任务失败时，应该追溯哪一个环节？——缺乏因果链时，系统往往只能看到状态偏离预期，却难以判断失败来自感知错误、抓取接触、支撑关系、摩擦变化，还是上游规划错误。
当环境改变时，哪些机制仍然成立？——表面相关关系容易随环境变化失效；相对稳定的因果机制，才更可能支持跨环境泛化。

Aether AI 认为，仅在潜空间预测状态变化仍然不够。面向真实世界决策，模型还需要进一步识别具有稳定性的因果机制，并显式处理干预、反事实和环境变化。

世界该如何表示，行动又如何改写世界？

一个面向真实世界决策的 AI 系统，应该如何把「因果」写进模型架构里？

不妨先看一个最简单的机器人任务：推杯子。

机器人看到桌上有一个杯子，目标是把它推到指定位置。对一个传统预测模型来说，它可以从大量视频和轨迹中学到一种统计规律：机械臂从左往右移动，杯子大概率也会往右移动。但真实世界里的问题远不止于此。杯子的材质、杯底形状、桌面摩擦、接触角度、推力大小、杯子是否装水、旁边是否有遮挡物，都会影响最终结果。

也就是说，机器人真正要学的不是「下一帧杯子大概率在哪里」，而是「哪些因素真正决定杯子会怎么动」。

Aether AI 并非在现有模型外部接一个解释性的后处理模块，而是把因果能力拆成三类基础问题：世界应该被表示成哪些变量；这些变量之间如何相互影响；当智能体采取某个动作时，这个变量系统会如何演化。

这三类问题，可以概括为 Aether AI 技术路线中的三类核心能力：因果特征表示学习、因果结构发现和因果动力学建模。

围绕这三类能力，团队近期的多项研究分别落在任务中心世界模型、交互式物体操作、生成式决策和跨本体动作表示等方向上。它们共同指向同一个问题：如何让机器人从状态预测走向因果干预。

因果特征表示学习，解决的是「世界该被怎样表示」。

在推杯子的场景里，普通视觉模型可能会把画面压缩成一个高维 embedding。这个 embedding 里既包含杯子位置、桌面边界、机械臂姿态，也包含杯子颜色、桌布纹理、光照变化等信息。但对完成任务来说，并不是所有视觉细节都同等重要。

Aether AI 更关心的是：模型能否在隐空间中分离出真正影响任务结果的变量。比如杯子当前位置、目标位置、接触点、桌面摩擦、杯子与机械臂之间的相对位置，这些才是机器人规划动作时需要重点使用的因素。杯子的颜色、背景纹理，通常只是任务无关噪声。

这也是团队近期 TC-WM 工作所强调的方向。TC-WM 没有直接把视觉基础模型输出的高维 embedding 当成最终状态空间，而是将其压缩成 compact、task-sufficient 的 latent dynamic space。换句话说，它不单纯追求更强的视觉表征，而是在寻找「足够表达任务、又不过度携带冗余信息」的任务中心动态表示。

论文标题：Back to Parsimonious Latents: Learning Task-Centric World Models from Visual Foundations
论文地址：https://arxiv.org/abs/2605.25620

因果结构发现，解决的是「变量之间谁影响谁」。

在推杯子的任务中，杯子最终移动了，可能是因为机械臂真正接触到了杯子，也可能来自桌面倾斜、旁边物体碰撞，或者杯子本身处在一个不稳定支撑状态。如果模型只学习相关性，就可能把「机械臂靠近杯子」和「杯子移动」绑定在一起，却没有理解真正产生作用的是接触、力传递和摩擦。

因果结构发现要解决的，就是从变量中识别真正的因果链条：哪些变量只是背景噪声，哪些变量会真正改变结果；哪些相关关系只在当前场景成立，哪些机制在环境变化后仍然稳定。

这一步的理论基础来自结构因果模型。一个因果系统并不只是变量集合，而是变量之间的生成机制。对机器人来说，关键不只是记录「动作 A 后经常出现状态 B」，而是理解动作 A 改变了哪些潜在变量，哪些变量又进一步改变了结果。

因果动力学建模，则进一步追问「行动之后世界如何变化」。

机器人每一次动作，本质上都是一次干预。推杯子并非单纯观察世界，还要主动改变世界。模型真正需要推演的是：如果从左侧轻推，杯子会怎样移动；如果从偏心位置用力推，杯子是否会旋转；如果桌面摩擦变大，原来的动作是否还有效。

这也是 Aether AI 所说的因果世界模型与传统世界模型的关键区别。传统世界模型主要预测下一状态；因果世界模型还要模拟不同干预会带来的不同后果。

团队近期关于交互式物体操作的研究，可以更具体地说明这一点。物体操作不是一条平滑连续的轨迹预测问题，接触、抓取、推动、释放等动作，会让系统在不同动力学模式之间切换。模型如果忽略这些切换边界，就容易在真正需要接触和施力的阶段失效。

在这项研究中，Interaction-weighted Resampling 通过围绕接触前、接触中、接触后的关键阶段重采样，让模型更关注动力学模式发生变化的位置。实验结果显示，在一组交互密集型仿真任务中，该方法相比既有表示学习方法取得平均 19.8% 的性能提升；在部分交互稀疏或长程操作任务中，提升幅度超过 50%。在真实机器人空气曲棍球实验中，使用该方法训练的策略将成功率从 25% 提升至 60%。

这组数据说明，物理世界中的样本效率和成功率提升，不一定来自更多数据，而可能来自更有效地识别「哪些交互真正改变了结果」。

论文标题：Learning Object Manipulation from Scratch via Contrastive Interaction
论文地址：https://arxiv.org/abs/2606.11525

同样的问题也出现在更复杂的决策任务中。团队的 Ada-Diffuser 工作关注决策过程中的隐藏因素，认为环境转移、奖励结构和行为策略都可能受这些因素影响。因此，决策模型不仅要知道「什么轨迹看起来合理」，还要建模「哪些隐藏条件让这条轨迹成立」。

论文标题：Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making
论文地址：https://arxiv.org/abs/2605.16054

SCAR 则把 action 视为独立表征因素，学习的不是某个机器人硬件的原始控制指令，而是动作造成的「可控变化」本身。

这样，当模型迁移到不同机器人平台时，迁移的就不只是具体控制命令，还有更抽象的动作效果。这也呼应了黄碧薇关于统一动作表示层的判断：不同机器人虽然结构和控制方式不同，但如果能在抽象层面表示动作造成的世界变化，就有机会实现跨平台迁移和泛化。

论文标题：SCAR: Self-Supervised Continuous Action Representation Learning
论文地址：https://arxiv.org/abs/2605.16412

从因果表征到智能体，让 AI 学会干预世界

在这三类能力之上，Aether AI 用四层架构回答「这些能力如何落到系统中」。

如果说传统机器人学习架构更多是在「感知—规划—控制」的工程链路上优化，那么 Aether AI 的四层架构想要重写的是模型理解世界的方式：从学习相关性，转向识别因果变量；从记忆任务轨迹，转向拆分可复用机制；从预测下一状态，转向模拟干预后果；从失败后重试，转向定位根因并恢复。

最底层是Causation Transformer。传统 Transformer 擅长学习统计依赖，回答的是「在已有数据中，什么通常和什么一起发生」；Causation Transformer 要进一步识别因果影响，判断「如果改变这里，结果是否会随之改变」。

第二层是模块化神经架构。传统模块化架构通常按工程流程拆分，比如感知、规划、控制；Aether AI 的模块化则按机制拆分，把接触、支撑、重力、摩擦、动作影响等因果机制变成可复用、可组合、可迁移的模块。这样，当环境、物体或机器人本体变化时，模型不必从零记忆一条完整轨迹，而可以复用仍然成立的机制。

第三层是因果世界模型，也是 Aether AI 架构的核心。传统世界模型通常学习状态转移：给定当前状态和动作，预测下一状态。因果世界模型则进一步追问：动作改变了哪些因果变量，这些变量如何传导到结果，以及换一种干预会发生什么。对机器人来说，这意味着模型不只是预测下一帧画面，还要在行动前模拟世界会如何被改变。

团队此前关于任务充分世界模型的研究，也能说明这一点。仅靠被动观察数据，很难知道哪些因素真正与任务有关；通过主动干预和环境课程，agent 可以收集更有信息量的轨迹，逐步暴露任务相关的潜在因素。这一思路也对应 Aether AI 所强调的主动数据收集、干预式模拟和任务泛化。

论文标题：Learning Task-Sufficient World Models via Intervention-Curriculum Co-Design
论文地址：https://openreview.net/forum?id=xFmxnyNYZJ

最顶层是因果驱动智能体系统。传统 Agent 更依赖上下文记忆和任务序列，失败后往往只记录「哪一步没有完成」，然后换一种动作重试；因果驱动智能体则要把因果世界模型用于规划、归因、记忆和恢复，判断失败来自感知误差、动作偏差、环境变化，还是上游规划错误。

团队在因果表示强化学习方向上的工作，也说明了类似问题。它尝试让智能体学习潜在因果变量及其结构关系，从而判断环境变化到底是普通分布偏移，还是状态、动作或任务空间本身发生了变化。对真实部署来说，这一点很关键：机器人不只是要在训练分布内表现良好，还要知道变化发生在哪里，并用少量新数据完成适配。

论文标题：Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations
论文地址：https://proceedings.iclr.cc/paper_files/paper/2025/hash/83c230118e9f6688ba8f20bfef99e6da-Abstract-Conference.html

由此，Aether AI 的目标不是让 AI 更会「预测」，而是让 AI 更懂「如何干预」。

Aether AI 与 JEPA 的关系，也可以放在这个框架下理解。二者都认为，AI 不应停留在像素级重建，而应在更抽象的表征空间中建模世界。区别在于，JEPA 主要解决从像素重建到表征预测的问题；Aether AI 则想继续往前走，把表征预测推进到因果干预。

黄碧薇教授在访谈中也提到，Aether AI 与 JEPA 的一个关键区别在于：Aether AI 不会完全去掉 pixel decoder，而是保留有意义的 decoding；更重要的是，Aether AI 尝试在隐空间中显式分离因果变量，并学习变量之间的因果结构。

圈子里没人创业，她决定亲手把理论变成产品

创始人黄碧薇教授的学术路径，是一条不断「意外」走向更底层问题的路。

本科时，她曾在一门「人工神经网络」课上接触早期神经网络。那还是深度学习大规模爆发之前的年代，网络结构远没有今天复杂。她开始思考一个问题：能否从人脑机制中找到改进 AI 的灵感？

这个想法把她带进了计算神经科学。此后，从上海中科院神经所的实验室，到德国马普所的硕士项目，她一路沿着「大脑如何计算」这个问题往下走。

转折发生在马普所的一次暑期学校。她听到了 Bernhard Schölkopf 关于因果推理的讲座。这个此前几乎没有接触过的领域，后来成为她持续十余年的研究主线。

博士阶段，她在 CMU 师从因果发现领域的重要学者 Kun Zhang 和 Clark Glymour。此后，她在因果发现、因果表示学习、因果推理和可泛化机器学习方向持续发表研究工作，也参与推动了 Causal-Learn、Causal-Copilot 等代表性工具，以及 CLeaR 因果学习与推理会议等学术社区建设。

黄碧薇与她的导师们以及其他因果领域学者。

在因果 AI 的学术世界里，黄碧薇已经是兼具深厚理论积累和工程化视野的代表性学者之一。

但学术做得越深，她越意识到一件事：理论能告诉你方向是对的，但只有实践才能证明这个方向是走得通的。实验室资源和工程条件有限，而她要验证的东西——因果世界模型能否在物理世界中真正工作——需要远超实验室规模的工程投入。

过去，这件事并不容易发生。

一方面，因果 AI 长期更接近基础研究。因果发现、因果推理、潜在结果等方法论派系各自深耕，但它们要进入复杂系统，需要足够强的表征能力、足够大的数据规模和足够成熟的工程基础。另一方面，过去的机器人和具身智能系统还没有形成足够清晰的落地窗口，许多问题仍停留在实验室任务里，产业侧对「因果」这类底层能力的需求并不显性。

现在，窗口开始变化。

大模型证明了 Scale 的力量，也为 AI 系统提供了更强的感知、表征和生成能力。但当模型从数字世界走向物理世界，仅靠规模化预测的边界也开始暴露：模型可以学习大量轨迹，却未必知道哪些变量真正改变结果；可以模仿成功动作，却未必能在环境变化后解释失败原因；可以生成看似合理的计划，却未必理解行动会如何改写世界。

换句话说，大模型提供了新的底层能力，但它仍然缺少因果层。物理世界正在暴露 Scale without Structure 的危险：机器人模型换一个环境就失效，自动驾驶在训练分布之外就可能变得脆弱，VLA 模型在长程任务中仍然面临错误恢复和任务泛化难题。至少在 Aether AI 的判断中，这些问题背后，是缺少因果结构带来的系统性瓶颈。

与此同时，Physical AI 正在从概念走向落地。机器人、自动驾驶、工业自动化等系统开始进入更复杂、更开放的环境，泛化、长尾、失败归因和跨平台迁移，正在从实验室问题变成真实部署中的工程痛点。

这也是黄碧薇认为「现在」是把因果 AI 推向产业的时机的原因。因果 AI 不再只是一个学术问题，而开始成为物理世界 AI 系统能否真正泛化、恢复和可靠部署的工程问题。

「真正核心圈子里，没有人创业。」黄碧薇这样描述因果 AI 学术界的现状。因果发现、因果推理、潜在结果等方法论长期各自深耕，但很少有人将它们融会贯通，并进一步带到真实工程系统中接受检验。

她选择从 Physical AI 切入，因为那是因果推理最硬核的课题。在物理世界里，每一次机器人动作都是一次干预，每一步失误都立刻暴露，正如她所说：「机器人不会原谅统计捷径。」

跨过预测的边界

Physical AI 真正的难处，是让机器人在没见过的场景里，仍然分得清什么会改变结果、什么只是背景噪声。

Aether AI 的判断是，进入物理世界后，AI 不能只学习「过去通常怎样」，还必须理解「什么真正改变结果」。因果世界模型要补上的，正是从预测未来到干预未来之间的这一层。

回到那只火鸡。它的失败不是因为不会预测，而是把重复发生的事误认为世界机制。AI 如果想避免成为一只更复杂的火鸡，也必须跨过这一步。

CHZ一周暴涨28%！2022年的暴跌会重演吗？

上MEXC 0费率多空双向布局，涨跌皆有应对之策！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。