Neural Thermodynamics I: Entropic Forces in Deep and Universal Representation Learning

2025年05月18日
  • 简介
    随着深度学习和大规模语言模型中新兴现象的快速发现,解释和理解其背后原因已成为当务之急。在本文中,我们提出了一种严谨的熵力理论,用于分析通过随机梯度下降(SGD)及其变体训练的神经网络的学习动力学。基于参数对称性和熵损失景观的理论,我们表明,表征学习的关键在于由随机性和离散时间更新产生的新兴熵力所主导。这些力系统性地打破了连续参数对称性,同时保留了离散对称性,从而引发了一系列类似于热力学系统能量均分特性的梯度平衡现象。这些现象进一步(a)解释了神经表征在人工智能模型之间的普遍对齐现象,并为柏拉图式表征假设提供了证明;(b)调和了深度学习优化过程中追求尖锐性和平坦性行为之间看似矛盾的观察结果。我们的理论与实验表明,熵力与对称性破缺的结合是理解深度学习中新兴现象的核心所在。
  • 图表
  • 解决问题
    论文试图解决深度学习和大语言模型中涌现现象的成因问题,特别是通过理解神经网络在使用随机梯度下降(SGD)及其变体训练时的学习动力学来解释这些现象。这是一个尚未完全解决的重要问题,尤其是在当前AI模型复杂性不断增加的情况下。
  • 关键思路
    论文提出了一种基于熵力理论的新方法,结合参数对称性和熵损失景观,揭示了表示学习如何受到随机性和离散时间更新产生的熵力的影响。这种理论不仅能够解释神经表示的普适对齐现象,还证明了‘柏拉图式表示假设’,并调和了深度学习优化中尖锐和平坦行为之间的矛盾。这一思路新颖地将热力学概念引入深度学习动态分析中。
  • 其它亮点
    1. 提出了熵力理论,用于解释深度学习中的涌现现象;2. 证明了柏拉图式表示假设,解释了不同AI模型间表示的一致性;3. 调和了关于深度学习优化中尖锐和平坦最小值的争议;4. 实验设计包括对多种架构和数据集上的分析,并验证了理论预测;5. 论文未提及代码是否开源,但其理论框架值得进一步实验验证,例如探索更复杂的模型或任务场景下的熵力作用。
  • 相关研究
    近期相关研究包括:1. 'The Emergence of Spectral Signatures in Neural Networks' 探讨了神经网络训练过程中频谱特性;2. 'Sharpness-Aware Minimization for Efficiently Improving Generalization' 研究了优化平坦性与泛化的关系;3. 'Symmetry Breaking and Spontaneous Alignment in Deep Learning' 分析了对称性破坏对深度学习的影响;4. 'Thermodynamics of Learning: From Stochastic Gradient Descent to Entropic Forces' 将热力学原理应用于深度学习优化过程。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问