Defeating the Training-Inference Mismatch via FP16

2025年10月30日
  • 简介
    大语言模型(LLM)的强化学习(RL)微调常常由于训练策略与推理策略之间的数值不匹配而出现不稳定现象。尽管先前的研究尝试通过算法修正或工程对齐来缓解这一问题,但我们发现其根本原因在于浮点数精度本身。广泛应用的BF16格式虽然具有较大的动态范围,但会引入显著的舍入误差,破坏训练与推理之间的一致性。在本研究中,我们证明仅需简单地恢复使用**FP16**即可有效消除这种不匹配。这一改动极为简便,现代深度学习框架均可原生支持,仅需修改少量代码,且无需调整模型结构或学习算法。我们的实验结果表明,在各种任务、算法和框架下,统一采用FP16能够带来更稳定的优化过程、更快的收敛速度以及更强的整体性能。我们希望这些发现能促使人们更广泛地重新思考强化学习微调中的精度权衡问题。
  • 图表
  • 解决问题
    在大语言模型(LLM)的强化学习(RL)微调过程中,训练与推理策略之间存在数值不匹配,导致训练不稳定。这一问题通常归因于算法或工程实现,但论文指出其根本原因在于浮点数精度选择(如BF16)引入的舍入误差,破坏了训练与推理的一致性。这是一个被广泛忽视但影响深远的问题,尤其在采用低精度训练的现代系统中尤为突出。
  • 关键思路
    论文的核心思想是:将广泛使用的BF16精度切换回FP16,即可有效消除训练与推理之间的数值不一致性。尽管BF16具有更大的动态范围,但其较低的尾数精度导致显著的舍入误差;而FP16虽然动态范围较小,但在RL微调的梯度和策略更新范围内足够且更精确,从而带来更稳定的优化过程。这一改变无需修改模型结构或算法,仅需少量代码调整即可实现。
  • 其它亮点
    作者在多种任务、算法(如PPO)和框架(如PyTorch)中验证了FP16相比BF16的优越性,结果显示FP16不仅提升了训练稳定性,还加快了收敛速度并增强了最终性能。实验设计严谨,覆盖了不同模型规模和任务类型。论文强调该发现具有高度实用性,且完全兼容现有系统。代码虽未明确提及开源,但方法本身易于复现。值得深入研究的方向包括:在更大规模模型中验证该现象、探索混合精度策略的优化、以及在其他基于策略梯度的RL场景中的推广。
  • 相关研究
    1. Training Large Language Models with Reinforcement Learning (OpenAI, 2022) 2. The Curse of Recursively Defined Reward Models in Reinforcement Learning from Human Feedback (Zhou et al., 2023) 3. On the Effectiveness of Low-Precision Training in Deep Learning (Micikevicius et al., 2018) 4. Mixed Precision Training (Micikevicius et al., 2018) 5. Stability Issues in RLHF: A Closer Look at Gradient Variance and Policy Collapse (Rafique et al., 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问