- 简介通过对机器人遥操作数据微调视觉-语言模型(VLM)以构建视觉-语言-动作(VLA)模型,是一种训练通用策略的有前景范式,但它面临一个根本性的权衡问题:学习生成动作通常会削弱VLM原有的推理能力与多模态理解能力,从而限制其在新场景中的泛化能力、指令遵循能力以及语义理解能力。我们认为,这种灾难性遗忘源于VLM在互联网规模数据上预训练时的数据分布,与机器人微调数据之间的分布不匹配。受此观察启发,我们提出了VLM2VLA:一种新的VLA训练范式,首先在数据层面解决这一分布差异,方法是用自然语言来表示底层动作。这种对齐方式使得仅通过低秩自适应(LoRA)即可完成VLA的训练,从而最大限度地减少对VLM主干网络的修改,避免灾难性遗忘。因此,该方法能够在不根本改变原有架构、也不需昂贵地联合训练互联网规模VLM数据集的情况下,利用机器人遥操作数据对VLM进行微调。通过广泛的视觉问答(VQA)研究以及超过800次真实世界机器人实验,我们证明了VLM2VLA能够保留VLM的核心能力,使其具备零样本泛化能力,可应对需要开放世界语义推理及多语言指令理解的新任务。
-
- 图表
- 解决问题论文试图解决在将视觉-语言模型(VLMs)微调为视觉-语言-动作模型(VLAs)用于机器人遥操作时,因动作学习导致VLM原有的多模态理解与语义推理能力严重退化的问题。这种“灾难性遗忘”限制了模型在新任务、开放世界语义理解和多语言指令跟随上的泛化能力。该问题在当前VLA研究中普遍存在,但尚未被系统识别和有效缓解,因此具有新颖性和重要性。
- 关键思路提出VLM2VLA范式,核心思想是在数据层面消除VLM预训练数据与机器人微调数据之间的分布差异:将低层次的机器人动作用自然语言表示,从而使动作学习任务与VLM原有的语言-视觉对齐目标保持一致。在此基础上,仅使用低秩适应(LoRA)进行微调,避免修改VLM主干网络,从而保留其原始推理能力。这一方法无需昂贵的互联网数据联合训练,即可实现通用策略学习与多模态能力的共存。
- 其它亮点通过广泛的视觉问答(VQA)评估和超过800次真实机器人实验验证了方法的有效性;展示了在未见任务上的零样本泛化能力,包括复杂语义推理和多语言指令理解;完全基于LoRA实现高效微调,显著降低计算成本;代码与数据集已开源,推动可复现研究;未来可探索更精细的动作语言化设计、跨具身智能体迁移、以及更复杂的长期规划任务。
- 1. PaLM-E: An Embodied Multimodal Language Model 2. Flamingo: a Visual Language Model for Few-Shot Learning 3. CoCa: Unified Vision-Language Pre-Training with Feature Interaction 4. RT-2: Vision-Language-Action Models for Real-World Robot Control 5. LLaVA: Large Language and Vision Assistant
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流