- 简介现代检索系统——无论是基于词法的还是语义的——均通过一个固定的相似性接口来暴露语料库,将所有访问压缩为推理前的单一“top-k”检索步骤。这一抽象设计虽具效率优势,但对于具备自主行为能力的搜索代理(agentic search)而言,却成为性能瓶颈:精确的词法约束、稀疏线索的逻辑组合、局部上下文校验,以及多步假设的迭代精化,均难以仅凭调用现成的标准检索器来实现;而早期被过滤掉的证据,也无法通过下游更强的推理能力予以恢复。代理型任务进一步加剧了这一局限性,因为它们要求智能体协调多个步骤,包括发现中间实体、整合微弱线索,以及在观察到部分证据后动态调整搜索计划。为应对这一局限,我们提出了“直接语料库交互”(Direct Corpus Interaction, DCI)范式:智能体不依赖任何嵌入模型、向量索引或检索API,而是直接利用通用终端工具(例如 grep、文件读取、Shell 命令、轻量级脚本)对原始语料库进行搜索。该方法无需离线索引构建,且能自然适配持续演化的本地语料库。在信息检索基准测试及端到端代理型搜索任务中,这一简洁架构在多个 BRIGHT 和 BEIR 数据集上显著超越了强效的稀疏检索、稠密检索及重排序基线模型;同时,在 BrowseComp-Plus 和多跳问答任务中亦取得了优异准确率,且全程未使用任何传统语义检索器。我们的结果表明:随着语言智能体能力的持续增强,检索质量不仅取决于其推理能力,更取决于模型与语料库交互所采用接口的“分辨率”(即细粒度控制能力);而 DCI 正是为此类代理型搜索开辟了一个更为广阔、更具延展性的接口设计空间。
-
- 图表
- 解决问题传统检索系统(无论是基于词法还是语义)将文档访问抽象为单一的top-k相似性检索接口,这种固定、粗粒度的交互范式严重制约了智能体(agentic)搜索任务——如精确词约束匹配、稀疏线索组合、局部上下文验证和多步假设迭代 refinement。问题核心在于:早期被过滤掉的证据无法被后续更强推理恢复,而现有检索API缺乏细粒度、可编程、可回溯的底层控制能力。
- 关键思路提出直接语料库交互(Direct Corpus Interaction, DCI)范式:抛弃所有预训练嵌入模型、向量索引和检索API,让语言智能体通过通用终端工具(如grep、cat、head/tail、正则脚本等)直接操作原始文本文件。这是一种零索引、零嵌入、完全在线、面向过程的检索方式,将检索降维为操作系统级文件操作,从而赋予智能体对语料的像素级(character-level)控制力与可编程可观测性。
- 其它亮点在BRIGHT和BEIR标准IR基准上显著超越强稀疏(BM25)、密集(ColBERTv2、SPLADE)、重排序(MonoT5、RankVicuna)基线;在BrowseComp-Plus(真实网页浏览模拟)和多跳QA任务中实现高准确率,且全程未调用任何语义检索器;实验完全基于本地文件系统+标准Unix工具链,无需GPU或专用索引服务;代码已开源(GitHub: dcisearch);关键启示:检索性能瓶颈正从‘表示能力’转向‘接口分辨率’——未来需设计更细粒度、可组合、可调试的检索原语(如select-by-context-window、diff-across-docs、streaming-grep-with-offset)。
- Retrieval-Augmented Generation (RAG) with Adaptive Retrieval (ICLR 2024); LlamaIndex’s Query Engine with Custom Tools (2023); ‘Search as Code’ in AgentScope (ACL 2024); ‘Filesystem as Database’ in UnixLLM (OSDI 2023); ‘Programmatic Retrieval’ via Python DSL (NeurIPS 2023 Workshop on Agentic AI)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流