不用向量数据库，Agent也能会搜索：给它一个grep就够了？

速读：它不依赖embedding模型，不构建向量索引，也不调用传统retriever，而是让智能体直接使用grep、文件读取、shell命令、轻量脚本等工具，在原始语料中多轮搜索、定位、验证和修正假设。过去，一个搜索系统通常先把文档切块、建索引，再根据query返回top-k结果；来自TexasA&MUniversity、UniversityofWaterloo、UCSanDiego、StanfordUniversity等机构的研究团队提出了一种新的搜索范式：DirectCorpusInteraction。智能体虽然具备规划、查询改写、阅读文档和迭代推理的能力，但如果它每次只能透过检索接口返回的小窗口观察语料，就很难像研究者一样反复检索、交叉过滤和定位证据。

2026年06月11日 14:49

本文主要作者包括：TAMU 的 Zhuofeng Li、Yu Zhang，UCSD 的 Haoxiang Zhang，University of Waterloo 的 Dongfu Jiang、Cong Wei、Ping Nie、Wenhu Chen、Jimmy Lin， Stanford 的 Pan Lu、Yejin Choi、James Zou， UIUC 的 Ming Zhong、Jiawei Han、以及 UW、Verdent AI、Lambda 等机构的合作者。

当大模型从「回答问题」走向「自己搜索、验证、综合证据」，检索接口正在变成 Agentic Search 的关键瓶颈。过去，一个搜索系统通常先把文档切块、建索引，再根据 query 返回 top-k 结果；智能体只能在这批候选片段上继续推理。这个流程高效、成熟；问题是，复杂搜索任务并不总是依靠语义最相近的片段就能解决；答案可能藏在多个弱线索的交叉处。一旦这些证据在 top-k 阶段被过滤掉，后面的推理模型再强也很难把它们凭空找回来。

来自 Texas A&M University、University of Waterloo、UC San Diego、Stanford University 等机构的研究团队提出了一种新的搜索范式： Direct Corpus Interaction (DCI)，直接语料交互。它不依赖 embedding 模型，不构建向量索引，也不调用传统 retriever，而是让智能体直接使用 grep、文件读取、shell 命令、轻量脚本等工具，在原始语料中多轮搜索、定位、验证和修正假设。

实验显示，在深度研究、多跳问答、信息检索等任务上，DCI-Agent 不仅摆脱了传统语义检索器，还在多个指标上超过了很多检索智能体 baseline。尤其在深度研究的 BrowseComp-Plus 基准数据集上，在使用 Claude Sonnet 4.6 时，如果用 DCI 替代 Qwen3-Embedding-8B 检索工具，准确率从 69.0% 提升到 80.0%，成本从 1440 美元降到 1016 美元。

图 1：BrowseComp-Plus 上的性能 - 成本图。论文比较了 Qwen3-Embedding-8B 与 DCI-Agent 两种 agentic search 接口。后者在准确率和成本之间取得了更优平衡。

arXiv：https://arxiv.org/abs/2605.05242

代码：https://github.com/DCI-Agent/DCI-Agent-Lite

Demo：https://huggingface.co/spaces/DCI-Agent/demo

Agentic Search 的检索接口，为什么需要重新思考？

Agentic Search 和传统搜索最大的差别在于：它不是「一次 query 对应一次 top-k 查找」。一个检索智能体会不断拆解问题、提出中间假设、寻找实体线索、打开文档、检查局部上下文，再根据观察到的证据改写下一轮搜索。

因此，真正的瓶颈往往不在模型会不会总结，而在模型能不能看到足够关键、足够细粒度的证据。检索漏了关键证据，后续推理很容易变成在不完整材料上的自洽推断。

传统检索器大致可以分成几类。

稀疏检索以倒排索引、BM25 为代表，快、稳、可解释，擅长专有名词、编号日期和精确字符串，但很难理解同义表达。

稠密检索把 query 和文档块编码成向量索引，再用相似度召回，能处理模糊问题，却会把复杂文档压成固定维度向量。

重排方法会在粗排之后再用 cross-encoder 或大模型精排，质量更高，但范式仍然没有变：语料先被索引系统压缩，智能体只能看到选出来的一部分信息。到了 Agentic Search 时代，top-k 的问题被进一步放大。智能体虽然具备规划、查询改写、阅读文档和迭代推理的能力，但如果它每次只能透过检索接口返回的小窗口观察语料，就很难像研究者一样反复检索、交叉过滤和定位证据。

论文把这类困难拆成三种典型场景：精确词法约束，例如答案依赖某个日期、编号、缩写；稀疏线索组合，例如地点、年份、组织、事件必须同时成立；局部上下文验证，例如找到相关文档还不够，还要定位到文档内部的某句话、某个表格或某个脚注。BrowseComp-Plus 这类基准数据集正是在考察这种能力：智能体需要发现中间实体、组合弱线索、执行精确约束，并在观察局部证据后修正搜索计划。

DCI-Agent：让智能体直接和语料交互

既然当下的智能体已经能规划和使用工具，为什么一定要先用 embedding 把语料压缩成向量，再让模型只看 top-k？DCI 的思路很直接：

智能体不调用传统的检索接口，也不依赖向量索引，而是直接通过命令行工具访问原始语料。它可以用 grep 或 rg（ripgrep）做精确匹配和正则搜索，用 find 或 glob 发现文件，用文件读取工具查看局部上下文，也可以写轻量脚本统计、过滤和组合线索。

DCI 的观察结果不再是固定格式的文档排序列表，而是工具输出：匹配片段、文件路径、计数、上下文、元数据等。

主题：证据|DCI-Agent|智能体|top-k