- 简介推理时扩展提供了一条有希望的路径,可以通过在推理时利用更多的计算资源来提升大语言模型(LLM)的推理能力;然而,这一范式的真正潜力在于外推能力(即,随着LLM“思考”时间的增长,其在难题上的表现能够持续改进,超越训练时的最大标记预算)。令人惊讶的是,我们发现大多数现有的推理模型在外推能力方面表现不佳。我们展示了一种实现外推的方法是通过训练LLM进行上下文中的探索:让LLM有效地分配其测试时间预算,例如通过串联操作(如生成、验证、优化等),或在确定答案之前测试多个假设。为了实现上下文探索,我们在方法e3中识别了三个关键要素:(1) 利用基础LLM在不同技能上的非对称能力进行串联,例如将验证(简单)与生成(困难)结合,以此实现上下文搜索;(2) 在强化学习过程中利用来自错误轨迹的“负梯度”以放大探索,从而生成更长的搜索轨迹,并进一步串联其他非对称能力;(3) 通过特定设计的课程安排,在训练过程中将任务难度与训练标记预算耦合,以结构化地引导上下文探索。我们的方法e3根据AIME'25和HMMT'25评分标准,产生了已知最佳的17亿参数模型,并且该模型的表现可以外推至两倍于训练标记预算。我们的e3-1.7B模型不仅在pass@1指标上取得了高分,还相对于基础模型在pass@k指标上有所提升。
- 图表
- 解决问题论文试图解决当前大型语言模型(LLM)在推理任务中缺乏有效外推能力的问题,尤其是在超出训练时的最大token预算时。这是一个新颖且重要的问题,因为大多数现有模型无法在更长的推理时间或更大的计算预算下显著提升性能。
- 关键思路论文提出了一种名为e3的方法,通过训练LLM进行上下文中的探索(in-context exploration),使模型能够更好地利用额外的计算资源。关键思路包括:1)将模型擅长的任务(如验证)与较难的任务(如生成)结合,形成链式操作;2)利用错误推理路径提供“负梯度”,以增强探索;3)设计特定课程学习策略,将任务难度与训练token预算动态匹配。这种方法相比传统方法更注重推理过程的结构化和动态调整。
- 其它亮点论文展示了e3-1.7B模型在AIME'25和HMMT'25等基准测试中取得了最佳已知结果,并能外推到两倍于训练token预算的情况。此外,该模型不仅提高了pass@1得分,还在pass@k指标上超越了基础模型。实验设计涵盖了多种复杂推理任务,数据集包括公开竞赛题目。代码尚未明确开源,但未来可能进一步推动研究社区探索更高效的推理机制,例如如何优化课程学习策略或改进负梯度利用方式。
- 近期相关研究包括:1)Chain-of-Thought提示技术,通过逐步分解问题来提升推理能力(Wei et al., 2022);2)Self-Consistency方法,通过生成多个假设并选择最一致的答案来提高准确性(Wang et al., 2023);3)ReAct框架,结合语言模型和环境交互来增强推理(Yao et al., 2023)。这些工作主要集中在提示工程或外部工具使用,而本论文则聚焦于通过内部机制改进模型的推理能力。
沙发等你来抢
去评论
评论
沙发等你来抢