The Diffusion Duality

2025年06月12日
  • 简介
    均匀状态的离散扩散模型由于其固有的自我修正能力,展现出快速生成文本的潜力。然而,这类模型通常在性能上逊色于自回归模型和掩码扩散模型。在本工作中,我们通过利用一个关键洞察来缩小这一性能差距:均匀状态的扩散过程实际上可以从底层的高斯扩散过程中自然衍生出来。我们的方法Duo将高斯扩散中的强大技术迁移到离散扩散模型中,从而改进训练和采样。 首先,我们引入了一种由高斯过程引导的课程学习策略,通过降低方差将训练速度提升一倍。使用课程学习训练的模型在7个基准测试中的3个上,其零样本困惑度超越了自回归模型。 其次,我们提出了离散一致性蒸馏(Discrete Consistency Distillation),该算法将连续域的一致性蒸馏技术适配到离散域。这一算法使扩散语言模型的采样速度提升了两个数量级,从而实现了少步生成。 我们在项目页面提供了代码和模型检查点:http://s-sahoo.github.io/duo
  • 图表
  • 解决问题
    该论文试图解决离散扩散模型在文本生成任务中性能不如自回归模型和掩码扩散模型的问题。这是一个已知问题,但通过改进训练和采样方法来缩小性能差距是一个新的研究方向。
  • 关键思路
    论文的关键思路是利用高斯扩散过程的特性来优化离散扩散模型。具体来说,引入了两种技术:1)基于高斯过程指导的课程学习策略以加速训练并降低方差;2)将一致性蒸馏从连续域扩展到离散域(Discrete Consistency Distillation),从而显著加速采样过程。这种方法为离散扩散模型提供了更高效的训练和生成能力。
  • 其它亮点
    实验表明,使用课程学习策略训练的模型在零样本困惑度上超越了自回归模型,并且在7个基准测试中的3个表现更优。此外,Discrete Consistency Distillation将采样速度提升了两个数量级,使得少步生成成为可能。论文还开源了代码和模型检查点,便于后续研究者复现结果。未来可以进一步探索如何将这些技术应用于更大规模的语言模型或跨模态任务。
  • 相关研究
    近期相关研究包括:1)“Improved Denoising Diffusion Probabilistic Models”探讨了连续扩散模型的改进方法;2)“Denoising Diffusion Models for Discrete Data”研究了离散数据上的扩散模型;3)“Consistency Models”提出了用于图像生成的一致性模型,为本文的一致性蒸馏算法提供了理论基础。此外,还有关于课程学习在语言模型中的应用的研究,如‘Curriculum Learning for Language Modeling’。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论