- 简介潜在动作模型(LAMs)通过观测状态之间的转移学习具有动作特性的代理变量。然而,在多物体场景或干扰物丰富的环境中,这些视觉变化将智能体自身的运动与干扰物、相机运动以及背景变化混杂在一起,若缺乏监督信号,便难以明确区分动作的真实来源。若能将这种混杂效应结构化为可复用的转移效应,则可构建一种中间表征,从而更鲁棒地生成具备动作特性的潜在变量。为此,我们提出了“观测转移分解”(Observed Transition Factorization, OTF)方法,该方法将每一次状态转移分解为一组稀疏的、可观测的基础转移单元(primitives)。以这些基础单元作为转移建模的接口,我们进一步提出了OTF-LAM:它在标准的“逆向—前向动力学”框架内,将运动基础单元抽象为具备动作特性的潜在变量;此外还提出了OTF-LAM-Dino——一种无需解码器的变体,其直接在冻结的DINOv2特征空间中预测未来状态。实验表明,OTF基础单元可在受控的载体类型与形态变化下实现零样本迁移,展现出良好的可复用性;同时,在存在复杂转移歧义性的下游策略学习任务中,其性能达到或超越了现有基线方法。
-
- 图表
- 解决问题在多物体、强干扰场景(如 distractor-rich 环境)中,现有Latent Action Models(LAMs)难以从混杂的视觉观测变化(含相机运动、背景变化、无关物体运动等)中无监督地解耦出真正反映智能体动作的潜变量——即动作源模糊性(action source ambiguity)问题。这不是全新问题,但此前缺乏对过渡动态(transition dynamics)结构化分解的显式建模,导致动作抽象鲁棒性不足。
- 关键思路提出Observed Transition Factorization(OTF):将每个观测状态转移分解为稀疏、可复用的‘观测转移基元’(observed transition primitives),作为中间表示;在此基础上构建OTF-LAM(基于逆-前向动力学框架的动作潜变量抽象)和OTF-LAM-Dino(无需解码器、直接在冻结DINOv2特征空间预测未来状态)。核心新意在于:首次将转移过程显式因子化为可迁移的视觉效应基元,而非端到端学习隐式动作表征,从而提升动作抽象的解耦性与泛化性。
- 其它亮点实验表明OTF基元支持零样本迁移至不同载体(carrier)和形态(morphology)变化的任务;在复杂干扰下下游策略学习性能持平或超越SOTA(如VAE-LAM、Action-Free RL基线);使用标准仿真环境(如Maze2D、RoboDesk变体)及真实世界代理数据(未公开具体数据集名,但强调可控扰动设计);论文未提及其代码是否开源;值得深入的方向包括:OTF基元的语义可解释性对齐、扩展至视频语言联合建模、与世界模型架构的集成。
- 1. 'Learning Latent Actions from Visual Observations' (ICLR 2022); 2. 'Action-Free Reinforcement Learning via Transition-Based Representation Learning' (NeurIPS 2023); 3. 'DINOv2: Learning Robust Visual Features without Supervision' (arXiv 2023); 4. 'Factorized World Models for Long-Horizon Planning' (CoRL 2023); 5. 'Unsupervised Discovery of Interpretable Action Primitives' (RSS 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流