每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Large Language Models Often Know When They Are Being Evaluated
2025年05月28日
如果人工智能模型能够检测到它们正在被评估,那么评估的有效性可能会受到影响。例如,模型在评估过程中可能会表现出系统性不同的行为,从而导致用于部署和治理决策的基准测试结果变得不够可靠。我们研究了前沿语言模型是否能够准确地根据转录内容判断其来源是评估还是真实世界的应用场景,我们将这种能力称为“评估意识”。为此,我们构建了一个包含1,000个提示和转录的多样化基准,这些数据来自61个不同的数据集,涵盖了公开基准(如MMLU、SWEBench)、真实世界的应用交互,以及脚手架框架中的代理轨迹(如网络浏览代理)。前沿模型清楚地展示了高于随机水平的评估意识(Gemini-2.5-Pro达到了AUC 0.83),但尚未超越我们简单的基线人类水平(AUC为0.92)。此外,无论是人工智能模型还是人类,在代理设置中识别评估的能力都比在聊天设置中更强。另外,我们还测试了模型是否能够识别评估的目的。在多项选择和开放式提问下,人工智能模型在识别评估目标方面远远超过了随机猜测的水平。我们的研究结果表明,前沿模型已经表现出相当高的评估意识,尽管尚未达到超人类水平。我们建议在未来模型中继续跟踪这一能力。
196
热度
PDF
解读
Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models
2025年06月04日
近期在推理模型测试阶段扩展规模的趋势(例如,OpenAI 的 o1,DeepSeek 的 R1)导致了一种普遍的看法,即通过提示如“稍等”或“让我重新思考”来延长思考过程可以提升性能。这自然引发了一个问题:在测试时更多地思考是否真的能带来更好的推理能力?为了解答这个问题,我们对不同模型和基准进行了详细的实证研究,结果揭示了一个一致的模式:额外的思考最初会带来性能的提升,但随后由于“过度思考”而下降。 为了理解这种非单调趋势,我们考虑了一个简单的概率模型,该模型表明,更多的思考会增加输出的方差——虽然表面上看起来推理有所改善,但实际上削弱了精确性。因此,观察到的“更多思考”所带来的收益并不是推理能力真正提升的指标,而是源于模型不确定性与评估指标之间联系所产生的伪影。这表明,通过延长思考来进行测试阶段的扩展并不是一种有效利用推理预算的方法。 认识到这些局限性后,我们提出了一种替代的测试阶段扩展方法——并行思考,其灵感来源于 Best-of-N 采样。我们的方法在同一推理预算内生成多条独立的推理路径,并通过多数投票选择最一致的响应,相较于延长思考的方法,准确率可提高多达 20%。这为推理模型的测试阶段扩展提供了一种简单而有效的新机制。
144
热度
PDF
解读
e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs
2025年06月10日
推理时扩展提供了一条有希望的路径,可以通过在推理时利用更多的计算资源来提升大语言模型(LLM)的推理能力;然而,这一范式的真正潜力在于外推能力(即,随着LLM“思考”时间的增长,其在难题上的表现能够持续改进,超越训练时的最大标记预算)。令人惊讶的是,我们发现大多数现有的推理模型在外推能力方面表现不佳。我们展示了一种实现外推的方法是通过训练LLM进行上下文中的探索:让LLM有效地分配其测试时间预算,例如通过串联操作(如生成、验证、优化等),或在确定答案之前测试多个假设。为了实现上下文探索,我们在方法e3中识别了三个关键要素:(1) 利用基础LLM在不同技能上的非对称能力进行串联,例如将验证(简单)与生成(困难)结合,以此实现上下文搜索;(2) 在强化学习过程中利用来自错误轨迹的“负梯度”以放大探索,从而生成更长的搜索轨迹,并进一步串联其他非对称能力;(3) 通过特定设计的课程安排,在训练过程中将任务难度与训练标记预算耦合,以结构化地引导上下文探索。我们的方法e3根据AIME'25和HMMT'25评分标准,产生了已知最佳的17亿参数模型,并且该模型的表现可以外推至两倍于训练标记预算。我们的e3-1.7B模型不仅在pass@1指标上取得了高分,还相对于基础模型在pass@k指标上有所提升。
135
热度
PDF
解读
Proofs of Useful Work from Arbitrary Matrix Multiplication
2025年04月14日
我们重新探讨了一个长期悬而未决的开放性问题,即在真正无需许可(permissionless)的环境中,基于现实世界的计算任务 \( T(x) \)(而不是人工随机哈希)实现中本聪的工作量证明(PoW)共识机制,其中矿工本身可以选择输入 \( x \)。设计这样一种有用工作量证明(Proof-of-Useful-Work, PoUW)协议的主要挑战在于,利用 \( T(x) \) 的原生计算生成一个具有规定难度的工作量证明证书,同时确保其计算开销仅比 \( T(\cdot) \) 的最坏情况复杂度高出可忽略不计的程度——这保证了恶意矿工无法通过欺骗验证者以更高概率接受其证明来“操纵系统”(同时使用相似的计算资源)。实际上,对于任何任务 \( T \),获得一个具有 \( O(1) \)-factor 开销的 PoUW 是微不足道的,但也是无用的。 我们的主要成果是一种针对任意矩阵乘法任务 \( MatMul(A,B) \) 的 PoUW 协议,其计算开销仅比朴素矩阵乘法高出 \( 1+o(1) \) 倍(即使存在目前尚不实用的快速矩阵乘法算法)。我们推测,我们的协议在安全性上是最佳的,即恶意证明者无法相对于诚实证明者获得任何显著优势。这一推测基于将协议的难度归约到求解一批低秩随机线性方程组的任务,该任务本身具有独立的研究价值。 由于矩阵乘法是人工智能计算以及无数行业规模应用的瓶颈,这一原语提出了一种新型 L1 基础层协议的具体设计方案,几乎可以消除比特币挖矿带来的能源浪费——允许 GPU 用户通过“复用”其计算能力来进行区块链共识,从而降低他们的 AI 训练和推理成本,并以区块奖励作为回报(一举两得)。这条区块链目前正在建设中。
116
热度
PDF
解读