Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

2025年06月10日
  • 简介
    Shojaee 等人(2025)报告称,大型推理模型(LRMs)在超出特定复杂度阈值的规划谜题上表现出“准确率崩溃”。我们证明,他们的研究结果主要反映了实验设计的局限性,而非模型基本推理能力的失败。我们的分析揭示了三个关键问题:(1)在汉诺塔实验中,模型在报告的失败点上系统性地超出了输出标记限制,而模型在输出中明确承认了这些限制;(2)作者的自动化评估框架无法区分推理失败与实际约束条件,从而导致对模型能力的误分类;(3)更严重的是,他们的渡河问题基准测试中包含了数学上无法解决的实例(当 N > 5 时,由于船容量不足),然而模型因未能解决这些无解问题而被判定为失败。当我们通过控制这些实验偏差(例如要求生成函数而不是完整的移动列表)时,初步跨多个模型的实验表明,在之前被认为完全失败的汉诺塔实例上,模型仍能保持高准确率。这些发现强调了在评估人工智能推理能力时精心设计实验的重要性。
  • 图表
  • 解决问题
    论文试图解决的是关于大型推理模型(LRMs)在复杂规划谜题中表现的问题,特别是 Shojaee 等人报告的‘准确率崩溃’现象是否反映了模型的根本推理能力限制。这是一个需要重新审视实验设计的问题,而非全新的问题。
  • 关键思路
    论文的关键思路是指出 Shojaee 等人的研究中存在实验设计缺陷,包括模型输出长度限制、评估框架误判以及基准测试中的数学不可能性问题。通过调整实验设计(例如要求生成函数而非详尽步骤列表),作者发现 LRMs 的实际推理能力可能被低估。相比现有研究,这篇论文强调了实验设计对 AI 推理能力评估的重要性。
  • 其它亮点
    论文通过具体案例(如 Tower of Hanoi 和 River Crossing)展示了实验设计如何影响模型表现的评估。实验设计改进后,初步结果显示 LRMs 在复杂任务上的准确性显著提高。此外,论文未提及代码开源或数据集细节,但提出了未来值得深入研究的方向,例如开发更公平和全面的基准测试工具。
  • 相关研究
    最近的相关研究包括:1) Shojaee et al. (2025) 关于 LRMs 在复杂规划任务中的准确率崩溃;2) Zhou et al. (2024) 探讨大语言模型在多步推理任务中的局限性;3) Wang et al. (2023) 提出基于生成式模型的推理优化方法。这些研究共同关注如何更准确地评估和提升 AI 模型的推理能力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论