Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting

2025年09月26日
  • 简介
    通过对机器人遥操作数据微调视觉-语言模型(VLM)以构建视觉-语言-动作(VLA)模型,是一种训练通用策略的有前景范式,但它面临一个根本性的权衡问题:学习生成动作通常会削弱VLM原有的推理能力与多模态理解能力,从而限制其在新场景中的泛化能力、指令遵循能力以及语义理解能力。我们认为,这种灾难性遗忘源于VLM在互联网规模数据上预训练时的数据分布,与机器人微调数据之间的分布不匹配。受此观察启发,我们提出了VLM2VLA:一种新的VLA训练范式,首先在数据层面解决这一分布差异,方法是用自然语言来表示底层动作。这种对齐方式使得仅通过低秩自适应(LoRA)即可完成VLA的训练,从而最大限度地减少对VLM主干网络的修改,避免灾难性遗忘。因此,该方法能够在不根本改变原有架构、也不需昂贵地联合训练互联网规模VLM数据集的情况下,利用机器人遥操作数据对VLM进行微调。通过广泛的视觉问答(VQA)研究以及超过800次真实世界机器人实验,我们证明了VLM2VLA能够保留VLM的核心能力,使其具备零样本泛化能力,可应对需要开放世界语义推理及多语言指令理解的新任务。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在将视觉-语言模型(VLMs)微调为视觉-语言-动作模型(VLAs)用于机器人遥操作时,因动作学习导致VLM原有的多模态理解与语义推理能力严重退化的问题。这种“灾难性遗忘”限制了模型在新任务、开放世界语义理解和多语言指令跟随上的泛化能力。该问题在当前VLA研究中普遍存在,但尚未被系统识别和有效缓解,因此具有新颖性和重要性。
  • 关键思路
    提出VLM2VLA范式,核心思想是在数据层面消除VLM预训练数据与机器人微调数据之间的分布差异:将低层次的机器人动作用自然语言表示,从而使动作学习任务与VLM原有的语言-视觉对齐目标保持一致。在此基础上,仅使用低秩适应(LoRA)进行微调,避免修改VLM主干网络,从而保留其原始推理能力。这一方法无需昂贵的互联网数据联合训练,即可实现通用策略学习与多模态能力的共存。
  • 其它亮点
    通过广泛的视觉问答(VQA)评估和超过800次真实机器人实验验证了方法的有效性;展示了在未见任务上的零样本泛化能力,包括复杂语义推理和多语言指令理解;完全基于LoRA实现高效微调,显著降低计算成本;代码与数据集已开源,推动可复现研究;未来可探索更精细的动作语言化设计、跨具身智能体迁移、以及更复杂的长期规划任务。
  • 相关研究
    1. PaLM-E: An Embodied Multimodal Language Model 2. Flamingo: a Visual Language Model for Few-Shot Learning 3. CoCa: Unified Vision-Language Pre-Training with Feature Interaction 4. RT-2: Vision-Language-Action Models for Real-World Robot Control 5. LLaVA: Large Language and Vision Assistant
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问