Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting

向作者提问

NEW

简介

通过对机器人遥操作数据微调视觉-语言模型（VLM）以构建视觉-语言-动作（VLA）模型，是一种训练通用策略的有前景范式，但它面临一个根本性的权衡问题：学习生成动作通常会削弱VLM原有的推理能力与多模态理解能力，从而限制其在新场景中的泛化能力、指令遵循能力以及语义理解能力。我们认为，这种灾难性遗忘源于VLM在互联网规模数据上预训练时的数据分布，与机器人微调数据之间的分布不匹配。受此观察启发，我们提出了VLM2VLA：一种新的VLA训练范式，首先在数据层面解决这一分布差异，方法是用自然语言来表示底层动作。这种对齐方式使得仅通过低秩自适应（LoRA）即可完成VLA的训练，从而最大限度地减少对VLM主干网络的修改，避免灾难性遗忘。因此，该方法能够在不根本改变原有架构、也不需昂贵地联合训练互联网规模VLM数据集的情况下，利用机器人遥操作数据对VLM进行微调。通过广泛的视觉问答（VQA）研究以及超过800次真实世界机器人实验，我们证明了VLM2VLA能够保留VLM的核心能力，使其具备零样本泛化能力，可应对需要开放世界语义推理及多语言指令理解的新任务。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在将视觉-语言模型（VLMs）微调为视觉-语言-动作模型（VLAs）用于机器人遥操作时，因动作学习导致VLM原有的多模态理解与语义推理能力严重退化的问题。这种“灾难性遗忘”限制了模型在新任务、开放世界语义理解和多语言指令跟随上的泛化能力。该问题在当前VLA研究中普遍存在，但尚未被系统识别和有效缓解，因此具有新颖性和重要性。
关键思路

提出VLM2VLA范式，核心思想是在数据层面消除VLM预训练数据与机器人微调数据之间的分布差异：将低层次的机器人动作用自然语言表示，从而使动作学习任务与VLM原有的语言-视觉对齐目标保持一致。在此基础上，仅使用低秩适应（LoRA）进行微调，避免修改VLM主干网络，从而保留其原始推理能力。这一方法无需昂贵的互联网数据联合训练，即可实现通用策略学习与多模态能力的共存。
其它亮点

通过广泛的视觉问答（VQA）评估和超过800次真实机器人实验验证了方法的有效性；展示了在未见任务上的零样本泛化能力，包括复杂语义推理和多语言指令理解；完全基于LoRA实现高效微调，显著降低计算成本；代码与数据集已开源，推动可复现研究；未来可探索更精细的动作语言化设计、跨具身智能体迁移、以及更复杂的长期规划任务。
相关研究

1. PaLM-E: An Embodied Multimodal Language Model 2. Flamingo: a Visual Language Model for Few-Shot Learning 3. CoCa: Unified Vision-Language Pre-Training with Feature Interaction 4. RT-2: Vision-Language-Action Models for Real-World Robot Control 5. LLaVA: Large Language and Vision Assistant

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问