- 简介尽管“深度推理”范式在数学等可验证领域推动了显著进展,但将其应用于开放性、创造性的生成任务仍是一个重大挑战。目前用于培养推理能力的两种主流方法——强化学习(RL)和指令蒸馏——在这一领域都表现不佳:强化学习在缺乏明确奖励信号和高质量奖励模型的情况下难以奏效,而指令蒸馏则因成本高昂且受限于教师模型的能力而难以推广。为克服这些局限,我们提出了“逆向工程推理”(REER)这一新范式,从根本上改变了推理方法的构建思路。REER不再通过试错或模仿“正向”构建推理过程,而是从已知的优质解出发,通过计算手段反向推演出潜在的、逐步深入的深度推理路径。采用这种可扩展且无需梯度的策略,我们整理并开源了DeepWriting-20K数据集,其中包含20,000条面向开放性任务的深度推理轨迹。基于该数据集训练出的模型DeepWriter-8B,不仅超越了多个强大的开源基线模型,还在某些情况下表现出与GPT-4o和Claude 3.5等领先闭源模型相当甚至更优的性能。
- 图表
- 解决问题论文试图解决在开放性、创造性生成任务中深度推理能力不足的问题。现有的两种主流方法——强化学习(RL)和指令蒸馏(instruction distillation)在这一领域表现不佳,分别面临奖励信号缺失和教师模型能力限制的问题。这是一个当前研究中尚未很好解决的挑战。
- 关键思路论文提出REER(REverse-Engineered Reasoning)方法,与传统的从输入到输出的推理构建方式不同,REER从已知正确的解决方案反向推导,计算出潜在的逐步推理过程。这种方法无需梯度更新,具有可扩展性,为构建深度推理轨迹提供了一种新范式。
- 其它亮点1. 提出REER方法,能够从已有解决方案生成推理路径,适用于开放性任务。 2. 构建并开源DeepWriting-20K数据集,包含20,000条深度推理轨迹。 3. 训练出DeepWriter-8B模型,在多个任务上表现优于GPT-4o和Claude 3.5等闭源模型。 4. 方法不依赖梯度更新,具备良好的可扩展性和实用性。 5. 为开放领域推理任务提供了新的训练数据集和模型架构,具有很高的研究和应用价值。
- 1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Self-Taught Reasoner: Learning to Reason from Scratch 3. Program of Thoughts: Enhancing Reasoning through Code Generation 4. Tree of Thoughts: Deliberate Problem Solving with Large Language Models 5. Reasoning with Latent Knowledge: Prompting Large Language Models without Explicit Chain-of-Thought
沙发等你来抢
去评论
评论
沙发等你来抢