- 简介语言模型的改进通常依赖于提升训练数据的质量,而当强监督信号稀缺时,这种方式可能会受到限制。在本项研究中,我们表明,即使每条单独的数据质量较低,由成对偏好数据组成的训练集仍然可以带来超出单个弱数据点能力的学习效果。为了阐释这一现象,我们提出了“差值学习”(delta learning)假设,认为只要数据点之间的相对质量差异存在,就可以通过偏好调优来推动模型学习——即便直接使用这些弱数据进行监督微调会产生负面影响。我们在受控实验和大规模场景中验证了这一假设,其中我们使用一个较小的3B参数模型与一个更小的1.5B参数模型生成的回答配对,构建出具有明显质量差异的偏好数据,并在此基础上对8B参数模型进行后训练。令人惊讶的是,在包含MATH、MMLU等在内的标准11项基准评估中,我们的简单方法表现媲美Tulu 3——这是一个基于相同基础模型、但依赖更强监督信号(例如GPT-4o)调优而成的最先进开源模型。因此,差值学习为实现高质量的后训练提供了一种更为简单且成本更低的开源方案。为了更好地理解差值学习机制,我们在逻辑回归模型中证明:两个较弱教师模型之间的性能差距能够为更强的学生模型提供有价值的学习信号。总体而言,我们的研究表明,模型可以从以往通常被认为质量不足的成对数据中实现出人意料的良好学习效果。
-
- 图表
- 解决问题论文试图解决在强监督数据稀缺的情况下,如何通过使用成对的弱偏好数据来提升语言模型性能的问题。这并不是一个全新的问题,但作者提出了一种新的视角和方法来应对这一挑战。
- 关键思路论文提出了“delta学习假设”,即通过比较成对数据之间的相对质量差异,而不是依赖单个高质量的监督信号,可以驱动模型学习。这种方法的关键创新在于即使个体数据点较弱,它们之间的对比仍然能够提供有效的学习信号。
- 其它亮点1. 在控制实验和大规模实验中验证了delta学习的有效性。 2. 使用3B和1.5B小模型生成的偏好数据来训练8B模型,并取得了与基于GPT-4o等强大监督模型相当的性能。 3. 在标准11项基准测试(如MATH、MMLU)中表现优异。 4. 理论上证明了在逻辑回归框架下,两个弱教师模型之间的性能差距能为更强的学生模型提供有用的学习信号。 5. 该方法为开源社区提供了更简单且成本更低的后训练方案。
- 1. Preference Learning with Large Language Models 2. Learning from Comparisons: A Scalable Approach for Reinforcement Learning from Human Feedback 3. Weakly Supervised Learning via Dual Decomposition 4. Delta Learning: Leveraging Relative Performance Gaps in Model Training 5. Training Language Models with Weak Supervision and Pairwise Comparisons
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流