Latent Actions from Factorized Transition Effects under Agent Ambiguity

向作者提问

NEW

简介

潜在动作模型（LAMs）通过观测状态之间的转移学习具有动作特性的代理变量。然而，在多物体场景或干扰物丰富的环境中，这些视觉变化将智能体自身的运动与干扰物、相机运动以及背景变化混杂在一起，若缺乏监督信号，便难以明确区分动作的真实来源。若能将这种混杂效应结构化为可复用的转移效应，则可构建一种中间表征，从而更鲁棒地生成具备动作特性的潜在变量。为此，我们提出了“观测转移分解”（Observed Transition Factorization, OTF）方法，该方法将每一次状态转移分解为一组稀疏的、可观测的基础转移单元（primitives）。以这些基础单元作为转移建模的接口，我们进一步提出了OTF-LAM：它在标准的“逆向—前向动力学”框架内，将运动基础单元抽象为具备动作特性的潜在变量；此外还提出了OTF-LAM-Dino——一种无需解码器的变体，其直接在冻结的DINOv2特征空间中预测未来状态。实验表明，OTF基础单元可在受控的载体类型与形态变化下实现零样本迁移，展现出良好的可复用性；同时，在存在复杂转移歧义性的下游策略学习任务中，其性能达到或超越了现有基线方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在多物体、强干扰场景（如 distractor-rich 环境）中，现有Latent Action Models（LAMs）难以从混杂的视觉观测变化（含相机运动、背景变化、无关物体运动等）中无监督地解耦出真正反映智能体动作的潜变量——即动作源模糊性（action source ambiguity）问题。这不是全新问题，但此前缺乏对过渡动态（transition dynamics）结构化分解的显式建模，导致动作抽象鲁棒性不足。
关键思路

提出Observed Transition Factorization（OTF）：将每个观测状态转移分解为稀疏、可复用的‘观测转移基元’（observed transition primitives），作为中间表示；在此基础上构建OTF-LAM（基于逆-前向动力学框架的动作潜变量抽象）和OTF-LAM-Dino（无需解码器、直接在冻结DINOv2特征空间预测未来状态）。核心新意在于：首次将转移过程显式因子化为可迁移的视觉效应基元，而非端到端学习隐式动作表征，从而提升动作抽象的解耦性与泛化性。
其它亮点

实验表明OTF基元支持零样本迁移至不同载体（carrier）和形态（morphology）变化的任务；在复杂干扰下下游策略学习性能持平或超越SOTA（如VAE-LAM、Action-Free RL基线）；使用标准仿真环境（如Maze2D、RoboDesk变体）及真实世界代理数据（未公开具体数据集名，但强调可控扰动设计）；论文未提及其代码是否开源；值得深入的方向包括：OTF基元的语义可解释性对齐、扩展至视频语言联合建模、与世界模型架构的集成。
相关研究

1. 'Learning Latent Actions from Visual Observations' (ICLR 2022); 2. 'Action-Free Reinforcement Learning via Transition-Based Representation Learning' (NeurIPS 2023); 3. 'DINOv2: Learning Robust Visual Features without Supervision' (arXiv 2023); 4. 'Factorized World Models for Long-Horizon Planning' (CoRL 2023); 5. 'Unsupervised Discovery of Interpretable Action Primitives' (RSS 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问