Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

向作者提问

NEW

简介

现代检索系统——无论是基于词法的还是语义的——均通过一个固定的相似性接口来暴露语料库，将所有访问压缩为推理前的单一“top-k”检索步骤。这一抽象设计虽具效率优势，但对于具备自主行为能力的搜索代理（agentic search）而言，却成为性能瓶颈：精确的词法约束、稀疏线索的逻辑组合、局部上下文校验，以及多步假设的迭代精化，均难以仅凭调用现成的标准检索器来实现；而早期被过滤掉的证据，也无法通过下游更强的推理能力予以恢复。代理型任务进一步加剧了这一局限性，因为它们要求智能体协调多个步骤，包括发现中间实体、整合微弱线索，以及在观察到部分证据后动态调整搜索计划。为应对这一局限，我们提出了“直接语料库交互”（Direct Corpus Interaction, DCI）范式：智能体不依赖任何嵌入模型、向量索引或检索API，而是直接利用通用终端工具（例如 grep、文件读取、Shell 命令、轻量级脚本）对原始语料库进行搜索。该方法无需离线索引构建，且能自然适配持续演化的本地语料库。在信息检索基准测试及端到端代理型搜索任务中，这一简洁架构在多个 BRIGHT 和 BEIR 数据集上显著超越了强效的稀疏检索、稠密检索及重排序基线模型；同时，在 BrowseComp-Plus 和多跳问答任务中亦取得了优异准确率，且全程未使用任何传统语义检索器。我们的结果表明：随着语言智能体能力的持续增强，检索质量不仅取决于其推理能力，更取决于模型与语料库交互所采用接口的“分辨率”（即细粒度控制能力）；而 DCI 正是为此类代理型搜索开辟了一个更为广阔、更具延展性的接口设计空间。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统检索系统（无论是基于词法还是语义）将文档访问抽象为单一的top-k相似性检索接口，这种固定、粗粒度的交互范式严重制约了智能体（agentic）搜索任务——如精确词约束匹配、稀疏线索组合、局部上下文验证和多步假设迭代 refinement。问题核心在于：早期被过滤掉的证据无法被后续更强推理恢复，而现有检索API缺乏细粒度、可编程、可回溯的底层控制能力。
关键思路

提出直接语料库交互（Direct Corpus Interaction, DCI）范式：抛弃所有预训练嵌入模型、向量索引和检索API，让语言智能体通过通用终端工具（如grep、cat、head/tail、正则脚本等）直接操作原始文本文件。这是一种零索引、零嵌入、完全在线、面向过程的检索方式，将检索降维为操作系统级文件操作，从而赋予智能体对语料的像素级（character-level）控制力与可编程可观测性。
其它亮点

在BRIGHT和BEIR标准IR基准上显著超越强稀疏（BM25）、密集（ColBERTv2、SPLADE）、重排序（MonoT5、RankVicuna）基线；在BrowseComp-Plus（真实网页浏览模拟）和多跳QA任务中实现高准确率，且全程未调用任何语义检索器；实验完全基于本地文件系统+标准Unix工具链，无需GPU或专用索引服务；代码已开源（GitHub: dcisearch）；关键启示：检索性能瓶颈正从‘表示能力’转向‘接口分辨率’——未来需设计更细粒度、可组合、可调试的检索原语（如select-by-context-window、diff-across-docs、streaming-grep-with-offset）。
相关研究

Retrieval-Augmented Generation (RAG) with Adaptive Retrieval (ICLR 2024); LlamaIndex’s Query Engine with Custom Tools (2023); ‘Search as Code’ in AgentScope (ACL 2024); ‘Filesystem as Database’ in UnixLLM (OSDI 2023); ‘Programmatic Retrieval’ via Python DSL (NeurIPS 2023 Workshop on Agentic AI)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问