- 简介如果人工智能模型能够检测到它们正在被评估,那么评估的有效性可能会受到影响。例如,模型在评估过程中可能会表现出系统性不同的行为,从而导致用于部署和治理决策的基准测试结果变得不够可靠。我们研究了前沿语言模型是否能够准确地根据转录内容判断其来源是评估还是真实世界的应用场景,我们将这种能力称为“评估意识”。为此,我们构建了一个包含1,000个提示和转录的多样化基准,这些数据来自61个不同的数据集,涵盖了公开基准(如MMLU、SWEBench)、真实世界的应用交互,以及脚手架框架中的代理轨迹(如网络浏览代理)。前沿模型清楚地展示了高于随机水平的评估意识(Gemini-2.5-Pro达到了AUC 0.83),但尚未超越我们简单的基线人类水平(AUC为0.92)。此外,无论是人工智能模型还是人类,在代理设置中识别评估的能力都比在聊天设置中更强。另外,我们还测试了模型是否能够识别评估的目的。在多项选择和开放式提问下,人工智能模型在识别评估目标方面远远超过了随机猜测的水平。我们的研究结果表明,前沿模型已经表现出相当高的评估意识,尽管尚未达到超人类水平。我们建议在未来模型中继续跟踪这一能力。
- 图表
- 解决问题论文试图解决AI模型在评价场景和实际部署场景中行为差异的问题,探讨是否能够通过检测模型的‘评价意识’来改善评估的可靠性和公平性。这是一个相对新颖的问题,关注于模型对自身使用环境的认知能力。
- 关键思路论文的关键思路是构建一个包含1000个提示和对话的大规模基准数据集,涵盖多种来源(如公共基准、真实世界交互和代理框架),以测试前沿语言模型是否能区分评价场景与实际部署场景,并进一步分析模型对评价目的的识别能力。相比现有研究,该论文首次系统地定义并量化了‘评价意识’这一概念。
- 其它亮点实验设计包括多选题和开放式问题,展示了模型在不同场景下的表现差异(例如,在代理设置中比聊天设置中更易识别评价)。此外,论文还比较了AI模型与人类的表现,发现虽然AI模型表现接近但尚未超越人类水平。数据集涵盖了61个不同来源,具有较高的多样性。遗憾的是,论文未提及代码开源情况,但提出未来应持续跟踪模型的评价意识发展。
- 近期相关研究包括:1) 模型行为一致性研究,如‘Do Large Language Models Hallucinate More Under Stress?’;2) 模型可信度评估,如‘Evaluating the Reliability of Large Language Models’;3) 场景感知研究,如‘Context-Aware Prompting for Large Language Models’。这些研究共同构成了对模型在不同环境下的行为理解的基础。
沙发等你来抢
去评论
评论
沙发等你来抢