文章作者、来源:机器之心 因果,可能是机器人走进现实世界的门票。 《三体》中有一个著名的「农场主假说」:农场主每天上午 11 点准时给火鸡喂食,一只火鸡科学家连续观察一年后总结出「11 点必有食物」的规律。直到感恩节那天,农场主带来的不再是食物,而是屠刀。 这个寓言的原型来自罗素关于归纳问题的「鸡/火鸡」寓言,它揭示了文章作者、来源:机器之心 因果,可能是机器人走进现实世界的门票。 《三体》中有一个著名的「农场主假说」:农场主每天上午 11 点准时给火鸡喂食,一只火鸡科学家连续观察一年后总结出「11 点必有食物」的规律。直到感恩节那天,农场主带来的不再是食物,而是屠刀。 这个寓言的原型来自罗素关于归纳问题的「鸡/火鸡」寓言,它揭示了

从预测到干预,Aether AI为什么押注因果世界模型?

2026/06/24 11:44
阅读时长 31 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:机器之心

因果,可能是机器人走进现实世界的门票。

《三体》中有一个著名的「农场主假说」:农场主每天上午 11 点准时给火鸡喂食,一只火鸡科学家连续观察一年后总结出「11 点必有食物」的规律。直到感恩节那天,农场主带来的不再是食物,而是屠刀。

这个寓言的原型来自罗素关于归纳问题的「鸡/火鸡」寓言,它揭示了一个有趣的问题:从过去数据中总结出的相关性,并不等于对世界机制的理解。火鸡的问题不只是样本不够多,而是它没有理解「为什么被喂养」,也没有意识到自己所处系统中的真实因果关系。

今天的 AI,在某种意义上也面临类似处境。

过去几年,大模型让我们看到,规模化学习可以把模式识别推到前所未有的高度。模型可以从海量语料、图像、视频和机器人轨迹中学习复杂规律,并在许多任务上表现出惊人的泛化能力。

但当 AI 开始进入物理世界,环境不再是静态数据集,行动也不再只是生成文本或像素。一次抓取、一次转向,都会改变世界本身。因此,真正的问题不只是模型能否预测下一步,而是模型能否理解自己的行动会如何改写世界。

Aether AI 正是从这一问题切入。

这家公司将自己的技术路线定义为「因果世界模型」(Causal World Models):相比只预测下一个状态的世界模型,Aether AI 更关心模型能否识别真正影响结果的变量,理解变量之间的因果结构,并在采取行动前模拟不同干预可能带来的后果。

第一个落地场景是 Physical AI——不造机器人本体,而是构建感知与控制之间的智能推理层,让机器人在看到环境之后,不只是判断「下一步最可能发生什么」,而是推演「如果我这样做,世界会如何改变」。

围绕这一目标,Aether AI 正在研发一套从底层表征到上层智能体决策的因果 AI 架构。它让模型从相关性预测走向机制建模,从被动观察走向主动干预,从「模仿过去见过的轨迹」走向「模拟干预后的后果」。

预测未来,是否等于理解因果?

过去三年,AI 在「预测下一步」这件事上取得了惊人的进展。大语言模型预测下一个 token,视频生成模型预测下一段画面,具身模型预测下一个动作,本质上都是从海量数据中学习统计规律,并在当前状态下预测最可能发生什么。

在潜空间里做预测,是其中一个关键进步。以 Yann LeCun 提出的 JEPA 为例,它放弃像素级重建,转而在抽象表征空间中预测缺失、被遮挡或未来的状态表征,让模型更集中地学习语义和结构性信息。

但预测做得再好,仍然有一个边界:它回答的是「接下来大概率会发生什么」,而不是「为什么会发生」。

这两者的区别,在数字世界里可能无关紧要。预测下一个词错了,重新生成就行。但在物理世界里,差距是结构性的。一辆自动驾驶汽车遇到训练数据中极少出现的路面状况,一个机械手面对形状和材质完全不同的容器,一个机器人在长程任务中某一步偏离预期——在这些时刻,仅依赖历史相关性会变得脆弱。

仅靠预测的 AI,至少会遇到四类问题:

  • 哪些变量真正决定了结果?——统计模型可能知道打雷和下雨常一起出现,但未必知道背后的共同原因是雷暴天气系统。
  • 如果主动改变某个变量,结果如何变化?——普通预测模型只能在训练分布覆盖的范围内外推;面对从未出现过的干预,需要更强的结构假设或因果模型。
  • 当任务失败时,应该追溯哪一个环节?——缺乏因果链时,系统往往只能看到状态偏离预期,却难以判断失败来自感知错误、抓取接触、支撑关系、摩擦变化,还是上游规划错误。
  • 当环境改变时,哪些机制仍然成立?——表面相关关系容易随环境变化失效;相对稳定的因果机制,才更可能支持跨环境泛化。

Aether AI 认为,仅在潜空间预测状态变化仍然不够。面向真实世界决策,模型还需要进一步识别具有稳定性的因果机制,并显式处理干预、反事实和环境变化。

世界该如何表示,行动又如何改写世界?

一个面向真实世界决策的 AI 系统,应该如何把「因果」写进模型架构里?

不妨先看一个最简单的机器人任务:推杯子。

机器人看到桌上有一个杯子,目标是把它推到指定位置。对一个传统预测模型来说,它可以从大量视频和轨迹中学到一种统计规律:机械臂从左往右移动,杯子大概率也会往右移动。但真实世界里的问题远不止于此。杯子的材质、杯底形状、桌面摩擦、接触角度、推力大小、杯子是否装水、旁边是否有遮挡物,都会影响最终结果。

也就是说,机器人真正要学的不是「下一帧杯子大概率在哪里」,而是「哪些因素真正决定杯子会怎么动」。

Aether AI 并非在现有模型外部接一个解释性的后处理模块,而是把因果能力拆成三类基础问题:世界应该被表示成哪些变量;这些变量之间如何相互影响;当智能体采取某个动作时,这个变量系统会如何演化。

这三类问题,可以概括为 Aether AI 技术路线中的三类核心能力:因果特征表示学习、因果结构发现和因果动力学建模。

围绕这三类能力,团队近期的多项研究分别落在任务中心世界模型、交互式物体操作、生成式决策和跨本体动作表示等方向上。它们共同指向同一个问题:如何让机器人从状态预测走向因果干预。

因果特征表示学习,解决的是「世界该被怎样表示」。

在推杯子的场景里,普通视觉模型可能会把画面压缩成一个高维 embedding。这个 embedding 里既包含杯子位置、桌面边界、机械臂姿态,也包含杯子颜色、桌布纹理、光照变化等信息。但对完成任务来说,并不是所有视觉细节都同等重要。

Aether AI 更关心的是:模型能否在隐空间中分离出真正影响任务结果的变量。比如杯子当前位置、目标位置、接触点、桌面摩擦、杯子与机械臂之间的相对位置,这些才是机器人规划动作时需要重点使用的因素。杯子的颜色、背景纹理,通常只是任务无关噪声。

这也是团队近期 TC-WM 工作所强调的方向。TC-WM 没有直接把视觉基础模型输出的高维 embedding 当成最终状态空间,而是将其压缩成 compact、task-sufficient 的 latent dynamic space。换句话说,它不单纯追求更强的视觉表征,而是在寻找「足够表达任务、又不过度携带冗余信息」的任务中心动态表示。

  • 论文标题:Back to Parsimonious Latents: Learning Task-Centric World Models from Visual Foundations
  • 论文地址:https://arxiv.org/abs/2605.25620

因果结构发现,解决的是「变量之间谁影响谁」。

在推杯子的任务中,杯子最终移动了,可能是因为机械臂真正接触到了杯子,也可能来自桌面倾斜、旁边物体碰撞,或者杯子本身处在一个不稳定支撑状态。如果模型只学习相关性,就可能把「机械臂靠近杯子」和「杯子移动」绑定在一起,却没有理解真正产生作用的是接触、力传递和摩擦。

因果结构发现要解决的,就是从变量中识别真正的因果链条:哪些变量只是背景噪声,哪些变量会真正改变结果;哪些相关关系只在当前场景成立,哪些机制在环境变化后仍然稳定。

这一步的理论基础来自结构因果模型。一个因果系统并不只是变量集合,而是变量之间的生成机制。对机器人来说,关键不只是记录「动作 A 后经常出现状态 B」,而是理解动作 A 改变了哪些潜在变量,哪些变量又进一步改变了结果。

因果动力学建模,则进一步追问「行动之后世界如何变化」。

机器人每一次动作,本质上都是一次干预。推杯子并非单纯观察世界,还要主动改变世界。模型真正需要推演的是:如果从左侧轻推,杯子会怎样移动;如果从偏心位置用力推,杯子是否会旋转;如果桌面摩擦变大,原来的动作是否还有效。

这也是 Aether AI 所说的因果世界模型与传统世界模型的关键区别。传统世界模型主要预测下一状态;因果世界模型还要模拟不同干预会带来的不同后果。

团队近期关于交互式物体操作的研究,可以更具体地说明这一点。物体操作不是一条平滑连续的轨迹预测问题,接触、抓取、推动、释放等动作,会让系统在不同动力学模式之间切换。模型如果忽略这些切换边界,就容易在真正需要接触和施力的阶段失效。

在这项研究中,Interaction-weighted Resampling 通过围绕接触前、接触中、接触后的关键阶段重采样,让模型更关注动力学模式发生变化的位置。实验结果显示,在一组交互密集型仿真任务中,该方法相比既有表示学习方法取得平均 19.8% 的性能提升;在部分交互稀疏或长程操作任务中,提升幅度超过 50%。在真实机器人空气曲棍球实验中,使用该方法训练的策略将成功率从 25% 提升至 60%。

这组数据说明,物理世界中的样本效率和成功率提升,不一定来自更多数据,而可能来自更有效地识别「哪些交互真正改变了结果」。

  • 论文标题:Learning Object Manipulation from Scratch via Contrastive Interaction
  • 论文地址:https://arxiv.org/abs/2606.11525

同样的问题也出现在更复杂的决策任务中。团队的 Ada-Diffuser 工作关注决策过程中的隐藏因素,认为环境转移、奖励结构和行为策略都可能受这些因素影响。因此,决策模型不仅要知道「什么轨迹看起来合理」,还要建模「哪些隐藏条件让这条轨迹成立」。

  • 论文标题:Ada-Diffuser: Latent-Aware Adaptive Diffusion for Decision-Making
  • 论文地址:https://arxiv.org/abs/2605.16054

SCAR 则把 action 视为独立表征因素,学习的不是某个机器人硬件的原始控制指令,而是动作造成的「可控变化」本身。

这样,当模型迁移到不同机器人平台时,迁移的就不只是具体控制命令,还有更抽象的动作效果。这也呼应了黄碧薇关于统一动作表示层的判断:不同机器人虽然结构和控制方式不同,但如果能在抽象层面表示动作造成的世界变化,就有机会实现跨平台迁移和泛化。

  • 论文标题:SCAR: Self-Supervised Continuous Action Representation Learning
  • 论文地址:https://arxiv.org/abs/2605.16412

从因果表征到智能体,让 AI 学会干预世界

在这三类能力之上,Aether AI 用四层架构回答「这些能力如何落到系统中」。

如果说传统机器人学习架构更多是在「感知—规划—控制」的工程链路上优化,那么 Aether AI 的四层架构想要重写的是模型理解世界的方式:从学习相关性,转向识别因果变量;从记忆任务轨迹,转向拆分可复用机制;从预测下一状态,转向模拟干预后果;从失败后重试,转向定位根因并恢复。

最底层是Causation Transformer。传统 Transformer 擅长学习统计依赖,回答的是「在已有数据中,什么通常和什么一起发生」;Causation Transformer 要进一步识别因果影响,判断「如果改变这里,结果是否会随之改变」。

第二层是模块化神经架构。传统模块化架构通常按工程流程拆分,比如感知、规划、控制;Aether AI 的模块化则按机制拆分,把接触、支撑、重力、摩擦、动作影响等因果机制变成可复用、可组合、可迁移的模块。这样,当环境、物体或机器人本体变化时,模型不必从零记忆一条完整轨迹,而可以复用仍然成立的机制。

第三层是因果世界模型,也是 Aether AI 架构的核心。传统世界模型通常学习状态转移:给定当前状态和动作,预测下一状态。因果世界模型则进一步追问:动作改变了哪些因果变量,这些变量如何传导到结果,以及换一种干预会发生什么。对机器人来说,这意味着模型不只是预测下一帧画面,还要在行动前模拟世界会如何被改变。

团队此前关于任务充分世界模型的研究,也能说明这一点。仅靠被动观察数据,很难知道哪些因素真正与任务有关;通过主动干预和环境课程,agent 可以收集更有信息量的轨迹,逐步暴露任务相关的潜在因素。这一思路也对应 Aether AI 所强调的主动数据收集、干预式模拟和任务泛化。

  • 论文标题:Learning Task-Sufficient World Models via Intervention-Curriculum Co-Design
  • 论文地址:https://openreview.net/forum?id=xFmxnyNYZJ

最顶层是因果驱动智能体系统。传统 Agent 更依赖上下文记忆和任务序列,失败后往往只记录「哪一步没有完成」,然后换一种动作重试;因果驱动智能体则要把因果世界模型用于规划、归因、记忆和恢复,判断失败来自感知误差、动作偏差、环境变化,还是上游规划错误。

团队在因果表示强化学习方向上的工作,也说明了类似问题。它尝试让智能体学习潜在因果变量及其结构关系,从而判断环境变化到底是普通分布偏移,还是状态、动作或任务空间本身发生了变化。对真实部署来说,这一点很关键:机器人不只是要在训练分布内表现良好,还要知道变化发生在哪里,并用少量新数据完成适配。

  • 论文标题:Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations
  • 论文地址:https://proceedings.iclr.cc/paper_files/paper/2025/hash/83c230118e9f6688ba8f20bfef99e6da-Abstract-Conference.html

由此,Aether AI 的目标不是让 AI 更会「预测」,而是让 AI 更懂「如何干预」。

Aether AI 与 JEPA 的关系,也可以放在这个框架下理解。二者都认为,AI 不应停留在像素级重建,而应在更抽象的表征空间中建模世界。区别在于,JEPA 主要解决从像素重建到表征预测的问题;Aether AI 则想继续往前走,把表征预测推进到因果干预。

黄碧薇教授在访谈中也提到,Aether AI 与 JEPA 的一个关键区别在于:Aether AI 不会完全去掉 pixel decoder,而是保留有意义的 decoding;更重要的是,Aether AI 尝试在隐空间中显式分离因果变量,并学习变量之间的因果结构。

圈子里没人创业,她决定亲手把理论变成产品

创始人黄碧薇教授的学术路径,是一条不断「意外」走向更底层问题的路。

本科时,她曾在一门「人工神经网络」课上接触早期神经网络。那还是深度学习大规模爆发之前的年代,网络结构远没有今天复杂。她开始思考一个问题:能否从人脑机制中找到改进 AI 的灵感?

这个想法把她带进了计算神经科学。此后,从上海中科院神经所的实验室,到德国马普所的硕士项目,她一路沿着「大脑如何计算」这个问题往下走。

转折发生在马普所的一次暑期学校。她听到了 Bernhard Schölkopf 关于因果推理的讲座。这个此前几乎没有接触过的领域,后来成为她持续十余年的研究主线。

博士阶段,她在 CMU 师从因果发现领域的重要学者 Kun Zhang 和 Clark Glymour。此后,她在因果发现、因果表示学习、因果推理和可泛化机器学习方向持续发表研究工作,也参与推动了 Causal-Learn、Causal-Copilot 等代表性工具,以及 CLeaR 因果学习与推理会议等学术社区建设。

黄碧薇与她的导师们以及其他因果领域学者。

在因果 AI 的学术世界里,黄碧薇已经是兼具深厚理论积累和工程化视野的代表性学者之一。

但学术做得越深,她越意识到一件事:理论能告诉你方向是对的,但只有实践才能证明这个方向是走得通的。实验室资源和工程条件有限,而她要验证的东西——因果世界模型能否在物理世界中真正工作——需要远超实验室规模的工程投入。

过去,这件事并不容易发生。

一方面,因果 AI 长期更接近基础研究。因果发现、因果推理、潜在结果等方法论派系各自深耕,但它们要进入复杂系统,需要足够强的表征能力、足够大的数据规模和足够成熟的工程基础。另一方面,过去的机器人和具身智能系统还没有形成足够清晰的落地窗口,许多问题仍停留在实验室任务里,产业侧对「因果」这类底层能力的需求并不显性。

现在,窗口开始变化。

大模型证明了 Scale 的力量,也为 AI 系统提供了更强的感知、表征和生成能力。但当模型从数字世界走向物理世界,仅靠规模化预测的边界也开始暴露:模型可以学习大量轨迹,却未必知道哪些变量真正改变结果;可以模仿成功动作,却未必能在环境变化后解释失败原因;可以生成看似合理的计划,却未必理解行动会如何改写世界。

换句话说,大模型提供了新的底层能力,但它仍然缺少因果层。物理世界正在暴露 Scale without Structure 的危险:机器人模型换一个环境就失效,自动驾驶在训练分布之外就可能变得脆弱,VLA 模型在长程任务中仍然面临错误恢复和任务泛化难题。至少在 Aether AI 的判断中,这些问题背后,是缺少因果结构带来的系统性瓶颈。

与此同时,Physical AI 正在从概念走向落地。机器人、自动驾驶、工业自动化等系统开始进入更复杂、更开放的环境,泛化、长尾、失败归因和跨平台迁移,正在从实验室问题变成真实部署中的工程痛点。

这也是黄碧薇认为「现在」是把因果 AI 推向产业的时机的原因。因果 AI 不再只是一个学术问题,而开始成为物理世界 AI 系统能否真正泛化、恢复和可靠部署的工程问题。

「真正核心圈子里,没有人创业。」黄碧薇这样描述因果 AI 学术界的现状。因果发现、因果推理、潜在结果等方法论长期各自深耕,但很少有人将它们融会贯通,并进一步带到真实工程系统中接受检验。

她选择从 Physical AI 切入,因为那是因果推理最硬核的课题。在物理世界里,每一次机器人动作都是一次干预,每一步失误都立刻暴露,正如她所说:「机器人不会原谅统计捷径。

跨过预测的边界

Physical AI 真正的难处,是让机器人在没见过的场景里,仍然分得清什么会改变结果、什么只是背景噪声。

Aether AI 的判断是,进入物理世界后,AI 不能只学习「过去通常怎样」,还必须理解「什么真正改变结果」。因果世界模型要补上的,正是从预测未来到干预未来之间的这一层。

回到那只火鸡。它的失败不是因为不会预测,而是把重复发生的事误认为世界机制。AI 如果想避免成为一只更复杂的火鸡,也必须跨过这一步。

CHZ一周暴涨28%!2022年的暴跌会重演吗?

CHZ一周暴涨28%!2022年的暴跌会重演吗?CHZ一周暴涨28%!2022年的暴跌会重演吗?

上MEXC 0费率多空双向布局,涨跌皆有应对之策!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

世界杯预测,一单串多场,搏200倍收益!

世界杯预测,一单串多场,搏200倍收益!世界杯预测,一单串多场,搏200倍收益!

MEXC App 6.60.0 全新升级,巴西/法国/阿根廷等最多20场组合,一键轻松下注!