Scaling Latent Reasoning via Looped Language Models

2025年10月29日
  • 简介
    现代大语言模型(LLM)主要通过显式的文本生成(例如思维链,CoT)来实现“思考”,但这种方式将推理能力的培养推迟到训练后期,未能充分利用预训练阶段的数据。本文提出并开源了Ouro模型,其名称取自象征循环递归的衔尾蛇(Ouroboros),属于一类新型的“循环语言模型”(LoopLM)。该模型将推理能力直接融入预训练阶段,具体通过以下三个关键设计实现:(i)在隐空间中进行迭代计算,(ii)采用熵正则化目标以学习动态调整计算深度,以及(iii)在高达7.7万亿token的数据上进行扩展训练。Ouro的14亿和26亿参数模型在广泛的基准测试中表现出色,性能媲美高达120亿参数的当前最优大模型。通过受控实验,我们证明这一优势并非源于更大的知识容量,而是来自更强大的知识运用能力。此外,我们还发现,与显式思维链相比,LoopLM生成的推理过程与最终输出更为一致。我们希望这些结果能够展示LoopLM作为推理时代一种全新扩展路径的潜力。我们的模型可在以下网址获取:http://ouro-llm.github.io。
  • 图表
  • 解决问题
    论文试图解决当前大语言模型(LLMs)在推理能力上主要依赖后训练阶段的显式思维链(Chain-of-Thought, CoT)方法,导致预训练阶段的数据未能充分用于培养模型内在推理能力的问题。该问题在当前LLM研究中日益突出,尤其是在追求高效、可扩展的推理能力背景下,如何在预训练阶段内建推理机制成为一个值得探索的新方向。
  • 关键思路
    提出并开源了一类名为Ouro(灵感来自衔尾蛇Ouroboros)的循环语言模型(LoopLM),其核心思想是在预训练阶段即引入推理能力,具体通过(i)潜在空间中的迭代计算、(ii)基于熵正则化的学习深度分配目标函数,以及(iii)在高达7.7万亿token的数据上进行扩展训练。与主流依赖后训练CoT的方法不同,Ouro将‘思考’过程内化于模型结构与训练目标之中,实现了更高效的推理能力构建。
  • 其它亮点
    Ouro的1.4B和2.6B小规模模型在多项基准测试中表现媲美高达12B的最先进LLM;消融实验表明其优势源于更强的知识操作能力而非更大的知识容量;LoopLM生成的推理轨迹比显式CoT更贴合最终输出,显示内部推理一致性更高;模型已在http://ouro-llm.github.io 开源,具备可复现性与进一步研究潜力;该工作为‘推理时代的模型扩展’提供了新范式,值得深入探索其架构变体与训练动态。
  • 相关研究
    近期相关研究包括:'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models'(Wei et al., 2022)、'Large Language Models are Zero-Shot Reasoners'(Kojima et al., 2023)、'Self-Consistency Improves Chain of Thought Reasoning in Language Models'(Wang et al., 2023)、'Tree of Thoughts: Deliberate Problem Solving with Large Language Models'(Yao et al., 2023)、'Graph of Thoughts: Solving Elaborate Problems with Large Language Models'(Besta et al., 2024)。这些工作多聚焦于推理提示或解码策略,而Ouro代表了将推理机制前移至预训练阶段的新趋势。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问