Reverse-Engineered Reasoning for Open-Ended Generation

简介

尽管“深度推理”范式在数学等可验证领域推动了显著进展，但将其应用于开放性、创造性的生成任务仍是一个重大挑战。目前用于培养推理能力的两种主流方法——强化学习（RL）和指令蒸馏——在这一领域都表现不佳：强化学习在缺乏明确奖励信号和高质量奖励模型的情况下难以奏效，而指令蒸馏则因成本高昂且受限于教师模型的能力而难以推广。为克服这些局限，我们提出了“逆向工程推理”（REER）这一新范式，从根本上改变了推理方法的构建思路。REER不再通过试错或模仿“正向”构建推理过程，而是从已知的优质解出发，通过计算手段反向推演出潜在的、逐步深入的深度推理路径。采用这种可扩展且无需梯度的策略，我们整理并开源了DeepWriting-20K数据集，其中包含20,000条面向开放性任务的深度推理轨迹。基于该数据集训练出的模型DeepWriter-8B，不仅超越了多个强大的开源基线模型，还在某些情况下表现出与GPT-4o和Claude 3.5等领先闭源模型相当甚至更优的性能。
图表
解决问题

论文试图解决在开放性、创造性生成任务中深度推理能力不足的问题。现有的两种主流方法——强化学习（RL）和指令蒸馏（instruction distillation）在这一领域表现不佳，分别面临奖励信号缺失和教师模型能力限制的问题。这是一个当前研究中尚未很好解决的挑战。
关键思路

论文提出REER（REverse-Engineered Reasoning）方法，与传统的从输入到输出的推理构建方式不同，REER从已知正确的解决方案反向推导，计算出潜在的逐步推理过程。这种方法无需梯度更新，具有可扩展性，为构建深度推理轨迹提供了一种新范式。
其它亮点

1. 提出REER方法，能够从已有解决方案生成推理路径，适用于开放性任务。 2. 构建并开源DeepWriting-20K数据集，包含20,000条深度推理轨迹。 3. 训练出DeepWriter-8B模型，在多个任务上表现优于GPT-4o和Claude 3.5等闭源模型。 4. 方法不依赖梯度更新，具备良好的可扩展性和实用性。 5. 为开放领域推理任务提供了新的训练数据集和模型架构，具有很高的研究和应用价值。
相关研究

1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Self-Taught Reasoner: Learning to Reason from Scratch 3. Program of Thoughts: Enhancing Reasoning through Code Generation 4. Tree of Thoughts: Deliberate Problem Solving with Large Language Models 5. Reasoning with Latent Knowledge: Prompting Large Language Models without Explicit Chain-of-Thought

许愿开讲

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论