Pretraining Large Language Models with NVFP4

2025年09月29日
  • 简介
    在本研究中,我们提出了一种基于NVFP4格式的新型方法,可实现大语言模型(LLM)稳定且精确的训练。该方法结合了随机哈达玛变换(RHT)以限制块级异常值,采用二维量化方案确保前向和反向传播过程中表示的一致性,利用随机舍入实现无偏梯度估计,并引入选择性高精度层。我们通过在一个120亿参数的模型上训练10万亿个token来验证所提出方法的有效性——这是迄今为止公开记录中最长的4比特精度训练过程。实验结果表明,采用我们基于NVFP4的预训练技术所训练出的模型,在训练损失和下游任务准确率方面均与FP8基线模型相当。这些发现表明,将NVFP4与我们的训练方法相结合,标志着窄精度大语言模型训练算法迈出了重要一步。
  • 图表
  • 解决问题
    论文试图解决在4-bit浮点精度(如FP4)下训练大语言模型时面临的训练不稳定、收敛困难和实现复杂性问题。随着大模型对算力、时间和能源消耗的需求急剧上升,提升预训练效率变得至关重要。尽管8-bit训练已广泛应用,但进一步压缩到4-bit会引入严重的数值不稳定性,尤其是在大规模、长序列训练场景中。这个问题目前尚未被充分解决,因此属于前沿且具有实际意义的新挑战。
  • 关键思路
    提出一种基于NVFP4格式的稳定高效训练方法,核心包括:使用随机Hadamard变换(RHT)抑制块级异常值,采用二维量化方案确保前向与反向传播的一致性表示,结合随机舍入(stochastic rounding)实现无偏梯度估计,并保留部分关键层使用高精度计算。相比现有窄精度训练工作,该方法系统性地解决了4-bit训练中的多个稳定性瓶颈,首次实现了长达10万亿token的4-bit预训练,是迈向极低精度训练的重要突破。
  • 其它亮点
    成功训练了一个120亿参数的LLM,在10万亿token上完成4-bit精度预训练——这是迄今为止公开报道中最长的4-bit训练运行。实验表明,该模型在训练损失和下游任务准确率上均与FP8基线相当,验证了4-bit训练的可行性。方法具备良好的可扩展性和工程实用性,虽未明确提及开源代码,但其技术细节为后续研究提供了清晰路径。值得深入的方向包括将该框架推广至更大规模模型、探索更多选择性高精度策略,以及与其他压缩技术(如稀疏化)结合。
  • 相关研究
    近期相关研究包括:'Training Large Language Models with Mixed-Precision: Challenges and Opportunities'(2023)、'FP8 Formats for Deep Learning'(NVIDIA, 2022)、'Outlier Suppression in Transformers via Adaptive Activations'(ICML 2023)、'Lite Transformer: A Hardware-Efficient Model Architecture'(NeurIPS 2022),以及Google关于'Training Language Models with 4-bit Precision using GEMMs'的技术报告(2023)。这些工作共同推动了低精度训练的发展,但本文在训练长度、系统完整性和实证效果上达到了新高度。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问