不用向量数据库,Agent也能会搜索:给它一个grep就够了?
本文主要作者包括:TAMU 的 Zhuofeng Li、Yu Zhang,UCSD 的 Haoxiang Zhang,University of Waterloo 的 Dongfu Jiang、Cong Wei、Ping Nie、Wenhu Chen、Jimmy Lin, Stanford 的 Pan Lu、Yejin Choi、James Zou, UIUC 的 Ming Zhong、Jiawei Han、以及 UW、Verdent AI、Lambda 等机构的合作者。
当大模型从「回答问题」走向「自己搜索、验证、综合证据」,检索接口正在变成 Agentic Search 的关键瓶颈。过去,一个搜索系统通常先把文档切块、建索引,再根据 query 返回 top-k 结果;智能体只能在这批候选片段上继续推理。这个流程高效、成熟; 问题是,复杂搜索任务并不总是依靠语义最相近的片段就能解决;答案可能藏在多个弱线索的交叉处 。一旦这些证据在 top-k 阶段被过滤掉,后面的推理模型再强也很难把它们凭空找回来。
来自 Texas A&M University、University of Waterloo、UC San Diego、Stanford University 等机构的研究团队提出了一种新的搜索范式: Direct Corpus Interaction (DCI), 直接语料交互 。它不依赖 embedding 模型,不构建向量索引,也不调用传统 retriever,而是让智能体直接使用 grep、文件读取、shell 命令、轻量脚本等工具,在原始语料中多轮搜索、定位、验证和修正假设。
实验显示,在深度研究、多跳问答、信息检索等任务上,DCI-Agent 不仅摆脱了传统语义检索器,还在多个指标上超过了很多检索智能体 baseline。尤其在深度研究的 BrowseComp-Plus 基准数据集上,在使用 Claude Sonnet 4.6 时,如果用 DCI 替代 Qwen3-Embedding-8B 检索工具,准确率从 69.0% 提升到 80.0%,成本从 1440 美元降到 1016 美元。
图 1:BrowseComp-Plus 上的性能 - 成本图。论文比较了 Qwen3-Embedding-8B 与 DCI-Agent 两种 agentic search 接口。后者在准确率和成本之间取得了更优平衡。
arXiv:https://arxiv.org/abs/2605.05242
代码:https://github.com/DCI-Agent/DCI-Agent-Lite
Demo:https://huggingface.co/spaces/DCI-Agent/demo
Agentic Search 的检索接口,为什么需要重新思考?
Agentic Search 和传统搜索最大的差别在于:它不是「一次 query 对应一次 top-k 查找」。一个检索智能体会不断拆解问题、提出中间假设、寻找实体线索、打开文档、检查局部上下文,再根据观察到的证据改写下一轮搜索。
因此, 真正的瓶颈往往不在模型会不会总结,而在模型能不能看到足够关键、足够细粒度的证据 。检索漏了关键证据,后续推理很容易变成在不完整材料上的自洽推断。
传统检索器大致可以分成几类。
稀疏检索 以倒排索引、BM25 为代表,快、稳、可解释,擅长专有名词、编号日期和精确字符串,但很难理解同义表达。
稠密检索 把 query 和文档块编码成向量索引,再用相似度召回,能处理模糊问题,却会把复杂文档压成固定维度向量。
重排方法 会在粗排之后再用 cross-encoder 或大模型精排,质量更高,但范式仍然没有变:语料先被索引系统压缩,智能体只能看到选出来的一部分信息。到了 Agentic Search 时代,top-k 的问题被进一步放大。智能体虽然具备规划、查询改写、阅读文档和迭代推理的能力,但如果它每次只能透过检索接口返回的小窗口观察语料,就很难像研究者一样反复检索、交叉过滤和定位证据。
论文把这类困难拆成三种典型场景: 精确词法约束 ,例如答案依赖某个日期、编号、缩写; 稀疏线索组合 ,例如地点、年份、组织、事件必须同时成立; 局部上下文验证 ,例如找到相关文档还不够,还要定位到文档内部的某句话、某个表格或某个脚注。BrowseComp-Plus 这类基准数据集正是在考察这种能力:智能体需要发现中间实体、组合弱线索、执行精确约束,并在观察局部证据后修正搜索计划。
DCI-Agent:让智能体直接和语料交互
既然当下的智能体已经能规划和使用工具,为什么一定要先用 embedding 把语料压缩成向量,再让模型只看 top-k?DCI 的思路很直接:
智能体不调用传统的检索接口,也不依赖向量索引,而是直接通过命令行工具访问原始语料。它可以用 grep 或 rg(ripgrep)做精确匹配和正则搜索,用 find 或 glob 发现文件,用文件读取工具查看局部上下文,也可以写轻量脚本统计、过滤和组合线索 。
DCI 的观察结果不再是固定格式的文档排序列表,而是工具输出:匹配片段、文件路径、计数、上下文、元数据等。