NEW

Scaling Latent Reasoning via Looped Language Models

Rui-Jie Zhu ,

Zixuan Wang ,

Kai Hua ,

Tianyu Zhang ,

Ziniu Li ,

Haoran Que ,

Boyi Wei ,

Zixin Wen ,

Fan Yin ,

He Xing ,

Lu Li ,

Jiajun Shi ,

Kaijing Ma ,

Shanda Li ,

Taylor Kergan ,

Andrew Smith ,

Xingwei Qu ,

Mude Hui ,

Bohong Wu ,

Qiyang Min ,

Hongzhi Huang ,

Xun Zhou ,

Wei Ye ,

Jiaheng Liu ,

Jian Yang ,

Yunfeng Shi ,

Chenghua Lin ,

Enduo Zhao ,

Tianle Cai ,

Ge Zhang ,

Wenhao Huang ,

Yoshua Bengio ,

Jason Eshraghian

热度 239

2025年10月29日

简介

现代大语言模型（LLM）主要通过显式的文本生成（例如思维链，CoT）来实现“思考”，但这种方式将推理能力的培养推迟到训练后期，未能充分利用预训练阶段的数据。本文提出并开源了Ouro模型，其名称取自象征循环递归的衔尾蛇（Ouroboros），属于一类新型的“循环语言模型”（LoopLM）。该模型将推理能力直接融入预训练阶段，具体通过以下三个关键设计实现：（i）在隐空间中进行迭代计算，（ii）采用熵正则化目标以学习动态调整计算深度，以及（iii）在高达7.7万亿token的数据上进行扩展训练。Ouro的14亿和26亿参数模型在广泛的基准测试中表现出色，性能媲美高达120亿参数的当前最优大模型。通过受控实验，我们证明这一优势并非源于更大的知识容量，而是来自更强大的知识运用能力。此外，我们还发现，与显式思维链相比，LoopLM生成的推理过程与最终输出更为一致。我们希望这些结果能够展示LoopLM作为推理时代一种全新扩展路径的潜力。我们的模型可在以下网址获取：http://ouro-llm.github.io。
图表
解决问题

论文试图解决当前大语言模型（LLMs）在推理能力上主要依赖后训练阶段的显式思维链（Chain-of-Thought, CoT）方法，导致预训练阶段的数据未能充分用于培养模型内在推理能力的问题。该问题在当前LLM研究中日益突出，尤其是在追求高效、可扩展的推理能力背景下，如何在预训练阶段内建推理机制成为一个值得探索的新方向。
关键思路

提出并开源了一类名为Ouro（灵感来自衔尾蛇Ouroboros）的循环语言模型（LoopLM），其核心思想是在预训练阶段即引入推理能力，具体通过（i）潜在空间中的迭代计算、（ii）基于熵正则化的学习深度分配目标函数，以及（iii）在高达7.7万亿token的数据上进行扩展训练。与主流依赖后训练CoT的方法不同，Ouro将‘思考’过程内化于模型结构与训练目标之中，实现了更高效的推理能力构建。
其它亮点

Ouro的1.4B和2.6B小规模模型在多项基准测试中表现媲美高达12B的最先进LLM；消融实验表明其优势源于更强的知识操作能力而非更大的知识容量；LoopLM生成的推理轨迹比显式CoT更贴合最终输出，显示内部推理一致性更高；模型已在http://ouro-llm.github.io 开源，具备可复现性与进一步研究潜力；该工作为‘推理时代的模型扩展’提供了新范式，值得深入探索其架构变体与训练动态。
相关研究

近期相关研究包括：'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models'（Wei et al., 2022）、'Large Language Models are Zero-Shot Reasoners'（Kojima et al., 2023）、'Self-Consistency Improves Chain of Thought Reasoning in Language Models'（Wang et al., 2023）、'Tree of Thoughts: Deliberate Problem Solving with Large Language Models'（Yao et al., 2023）、'Graph of Thoughts: Solving Elaborate Problems with Large Language Models'（Besta et al., 2024）。这些工作多聚焦于推理提示或解码策略，而Ouro代表了将推理机制前移至预训练阶段的新趋势。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问