Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

2025年05月14日
  • 简介
    我们提出了 Omni-R1,它基于最近的多模态大语言模型通义千问2.5-Omni,并在音频问答数据集上使用强化学习方法 GRPO 进行微调。这使得 Omni-R1 在最近的 MMAU 和 MMAR 基准测试中达到了新的最先进性能。Omni-R1 在 Test-mini 和 Test-full 两个测试集中,于声音、音乐、语音以及整体平均类别上均取得了最高的准确率。为了理解性能提升的原因,我们分别测试了有音频和无音频的模型,发现 GRPO 带来的性能改进很大程度上可以归因于更好的基于文本的推理能力。此外,我们还意外地发现,在仅包含文本的数据集上进行微调(不使用音频),也能有效提升模型的音频相关性能。
  • 图表
  • 解决问题
    该论文试图通过强化学习方法GRPO改进多模态大模型Qwen2.5-Omni在音频问答任务中的性能。这是一个在多模态领域中逐渐受到关注的问题,尤其是针对音频数据的理解和推理能力。
  • 关键思路
    论文的关键思路是使用强化学习方法(GRPO)对预训练的多模态大语言模型进行微调,以优化其在音频问答任务中的表现。相比现有研究,这篇论文的新意在于不仅利用了音频数据,还发现仅用文本数据微调也能显著提升音频任务的表现,这表明模型可能更依赖于文本推理能力而非单纯的音频特征提取。
  • 其它亮点
    1. Omni-R1在MMAU和MMAR基准测试中达到了新的SOTA性能,在多个类别上表现最佳。 2. 实验设计包括对比有无音频输入的模型性能,揭示了文本推理能力的重要性。 3. 使用了Test-mini和Test-full两个数据集进行验证,并开源了部分实验代码。 4. 提出了值得进一步研究的方向,例如如何更好地结合音频与文本信息以减少对文本推理的过度依赖。
  • 相关研究
    相关研究包括: 1. 'Improving Multimodal Reasoning with Reinforcement Learning' - 探讨了强化学习在多模态任务中的应用。 2. 'Multimodal Pretraining for Audio and Vision Tasks' - 研究了跨模态预训练模型的潜力。 3. 'Audio Captioning with Large Language Models' - 针对音频生成描述任务的研究。 4. 'Text-Only Fine-Tuning for Multimodal Models' - 验证了仅用文本数据微调多模态模型的有效性。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问