MADQA:Agent 文档推理还是暴力搜索?18% 的 Oracle 差距
MADQA:Agent 文档推理还是暴力搜索?18% 的 Oracle 差距
论文:Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections
作者:Łukasz Borchmann, Jordy Van Landeghem, Ryan Othniel Kearns 等(Snowflake AI Research / UNC-Chapel Hill / Oxford / HuggingFace)
当最强 Agent 在文档集上的准确率追上人类搜索者时,看起来问题已解决——但深入分析发现,Agent 做对的题和人类完全不同,它们在靠暴力搜索而非策略规划,距 oracle 仍有 ~18% 的不可逾越鸿沟。
一、这篇论文在解决什么问题
1.1 背景
多模态 Agent 越来越多地被用于企业级文档密集型工作流——合同审查、财报分析、合规检查。但当前评估 Agent 文档推理能力的 benchmark 存在三大缺陷:
- 格式碎片化:BRIGHT、Researchy Questions 等 Agent benchmark 用 HTML/纯文本,忽略了真实 PDF 的视觉理解需求
- 范围受限:FinRAGBench-V 等局限于特定垂直领域,或只测单步检索
- 数据完整性不足:ViDoRE、VIMDoc 等用 MLLM 生成问题(引入偏差)或回收旧数据集(数据泄漏风险)
1.2 核心问题
- 当前多模态 Agent 在文档集上的推理行为是策略性导航还是随机搜索?
- Agent 和人类在解决文档问题时的行为模式有什么本质差异?
- 如何设计一个高区分度的 benchmark 来可靠测量 Agent 的文档推理能力?
二、方法:怎么解决的
2.1 核心 Insight
准确率相当 ≠ 能力相当。 Agent 和人类在 MADQA 上可以达到相似的整体准确率,但它们做对的题集合几乎不重叠——Agent 在简单定位任务上碾压人类,但在需要跨文档推理的复杂问题上比人类差 ~20%。Agent 用暴力搜索弥补策略规划的不足,代价是大量的无效计算。
2.2 技术细节
Benchmark 设计
MADQA 包含 2,250 个人工编写问题 + 800 篇异构 PDF 文档,覆盖 13 个高级领域、63 个细分类别。六个核心属性定义了任务:
| 属性 | 含义 |
|---|---|
| Extractive | 答案必须在证据页面中逐字出现 |
| Multi-Hop | 证据可能跨页或跨文档 |
| Closed-World | 仅从语料库推导,不依赖外部知识 |
| Grounded | 证据必须最小化(不多引不少引) |
| Agentic | 不存在单一检索查询能一次获取所有证据 |
| Visual | 回答可能需要非文本信息(表格、图表、布局) |
Classical Test Theory 驱动的数据集划分
这是与其他 benchmark 的关键差异。论文用 CTT 计算每道题的 Difficulty(平均准确率)和 Discrimination(与总分的 point-biserial 相关性),优先选择高区分度的题目进入测试集。同时保留 20% “Sentinel Pool”——当前没有任何模型能做对的题——确保 benchmark 不会被快速饱和。
最终划分:Test 500 题、Dev 200 题、Train 1550 题。Test 与完整 benchmark 的 Spearman ρ > 0.85。
评估协议(三维度)
- Answer Correctness:LLM-based 评估(与人类判断 Cohen’s κ = 0.88),校准后做偏差校正
- Retrieval Attribution:Page F1(页级精确匹配)+ Doc F1(文档级宽松匹配)
- Effort Calibration:用 Kuiper 统计量 衡量”准确率-努力”的依赖关系
Kuiper 统计量的直觉:
其中样本按搜索步数排序。 值越高 = 准确率和搜索步数的关系越强 = Agent 越不”节制”。低 意味着 Agent 在简单和复杂问题上都能校准自己的搜索投入。
2.3 基线系统
论文评估了三大类系统:
| 类别 | 代表 | 特点 |
|---|---|---|
| 非 Agentic | Gemini File Search, GPT File Search | 黑盒 RAG 服务,固定计算预算 |
| BM25 MLLM Agent | GPT-5/Claude/Gemini + BM25 搜索 | 文本检索 + 视觉推理,迭代式 |
| RLM (Recursive Language Models) | GPT/Claude + 程序化分解 | 任务无关的递归处理,不受限 |
三、实验结果
3.1 主要结果
Table 3 核心数据:
| 系统 | 整体准确率 | X-Page | X-Doc | Page F1 | Kuiper ↓ |
|---|---|---|---|---|---|
| Human Oracle | 99.4% | 100% | 98% | — | — |
| Human BM25 Agent | 82.2% | 79.6% | 72.0% | 79.3% | 14.6 |
| Gemini 3 Pro BM25 Agent | 82.2% | 66.8% | 73.0% | 78.5% | 25.8 |
| Claude Sonnet 4.5 BM25 Agent | 80.6% | 66.8% | 82.0% | 79.1% | 35.1 |
| GPT-5 BM25 Agent | 77.7% | 60.1% | 74.0% | 74.2% | 52.6 |
| Gemini 3 Pro (Non-Agentic) | 78.6% | 74.1% | 75.0% | 70.1% | — |
关键解读:
- 最强 Agent(82.2%)追平了人类搜索者(82.2%)——但距离 Human Oracle(99.4%)仍有 17.2% 的差距。这个差距来自检索,不是推理。
- X-Page/X-Doc 子集上差距巨大:人类在跨页问题上 79.6%,Gemini/Claude Agent 只有 66.8%——Agent 在多跳推理上弱了 ~13 个百分点。
- Kuiper 统计量揭示效率差距:人类 14.6 vs GPT-5 Agent 52.6——Agent 在复杂问题上消耗了大量无效搜索步骤却仍然做错。
- 非 Agentic Gemini 3 Pro File Search(78.6%)几乎追平了 Agentic 系统——说明在某些场景下,好的 RAG 基线可以免去 Agent 的复杂性。
3.2 关键图表解读
视觉理解需求(Figure 4):仅 42% 的问题可以从纯文本回答——58% 需要理解结构化布局、表格或视觉工件。这验证了 PDF benchmark 必须是多模态的。
Agent vs 人类行为差异:Agent 和人类做对的问题集合有极低的重叠度。Agent 擅长的是”给出确切关键词就能找到”的简单定位,而人类擅长的是”需要理解文档结构和跨文档关系”的推理型任务。
3.3 消融实验
非 Agentic vs Agentic:Agent 系统一致优于同模型的非 Agentic 版本(如 GPT-5 Agent 77.7% vs GPT-5 File Search 49.6%),证明迭代搜索的价值。但代价是计算量增加 10-50×。
RLM 的问题:Recursive Language Models(如 Gemini 3 Pro RLM,73.8%)表现不错但计算开销巨大,且容易陷入递归深度爆炸。受限的 Agent(BM25 Agent)在性价比上更优。
四、复现与落地评估
4.1 复现难度评估
| 维度 | 评级 | 说明 |
|---|---|---|
| 代码开源 | ✅ | Snowflake-Labs/MADQA 已开源评估框架 |
| 数据可得性 | ✅ | 2,250 问题 + 800 PDF 全部公开 |
| 算力需求 | 中 | 评估需要 API 调用,不需要训练 |
| 依赖复杂度 | 低 | 标准 Python + LLM API |
| 复现总评 | ⭐⭐⭐⭐⭐ | 完整公开,可直接使用 |
4.2 工业落地可行性
- 适用场景:任何文档密集型 Agent 的评估(法律、金融、合规审计)
- 性能开销:评估 500 道测试题需要 ~500 次 Agent 调用,成本取决于 Agent 使用的模型
- 集成难度:可直接作为评估套件集成到 CI/CD 中
- 风险点:800 篇 PDF 的规模在企业场景中偏小,可能低估真实部署中的检索困难
- 落地总评:⭐⭐⭐⭐ (作为评估工具直接可用,作为训练信号价值更高)
五、SOTA 对照矩阵
| Benchmark | 文档类型 | 多模态 | 人工标注 | Agentic 评估 | 数据新鲜度 |
|---|---|---|---|---|---|
| MADQA | 800 异构 PDF | ✅ | ✅ 全人工 | ✅ 含效率指标 | ✅ 全新文档 |
| ViDoRE v3 | PDF 集合 | ✅ | ✅/❌ | ❌ 单步检索 | ⚠️ |
| BRIGHT | HTML/文本 | ❌ | ✅ | ✅ | ✅ |
| FinRAGBench-V | 金融 PDF | ✅ | ✅ | ❌ | ⚠️ 单领域 |
| Researchy Questions | 文本集合 | ❌ | ✅/❌ | ✅ | ✅ |
| M3DocRAG | 网页转 PDF | ⚠️ | ❌ | ❌ | ❌ |
MADQA 是目前唯一同时满足”异构 PDF + 全人工标注 + Agentic 评估 + 全新文档”四个条件的 benchmark,填补了一个明确的空白。
六、讨论与局限
6.1 论文自身讨论的局限
- 800 篇文档在规模上仍偏小(企业场景可能是万级)
- 人类 baseline 的搜索者并非领域专家
- Kuiper 统计量对 effort 的定义(tool calls 数量)可能不够精确——不同 tool call 的计算成本差异很大
- 未评估结合了视觉检索的 Agent(如 ColPali-based 系统)
6.2 我的额外观察
非 Agentic Gemini 的强表现值得深思。 Gemini 3 Pro File Search(78.6%)几乎追平了 Agentic 系统(82.2%),而计算成本可能低 10-50×。这说明在很多实际场景中,“先把 RAG 做好”比”上 Agent”更务实。
82.2% vs 99.4% 的差距是检索问题,不是推理问题。 Human Oracle(给人类完美证据)达到 99.4%——说明一旦找到正确证据,回答几乎不出错。Agent 的瓶颈不是”读不懂文档”,而是”找不到正确的文档/页面”。
Classical Test Theory 的 benchmark 设计值得推广。 用 Difficulty × Discrimination 矩阵来筛选高质量测试题、用 Sentinel Pool 保留长期 headroom——这种方法论应该被更多 benchmark 采用,而不只是随机划分。
Kuiper 统计量是一个有趣的新指标。 传统 benchmark 只看准确率,MADQA 引入了”效率校准”维度。在实际部署中,一个准确率 75% 但 Kuiper=15 的 Agent(高效且校准)可能比准确率 82% 但 Kuiper=53 的 Agent(浪费大量 token 在注定失败的搜索上)更有价值。
七、对我们的启示
谁应该关注这篇论文?
- 构建文档处理 Agent 的工程师(直接评估工具)
- RAG 系统开发者(baseline 对比)
- Benchmark 设计者(方法论参考)
核心 takeaway:
- Agent 在文档集上的”高准确率”是暴力搜索换来的,不是策略规划
- 检索(找到正确页面)是比推理(理解页面内容)更大的瓶颈
- 跨文档多跳推理是 Agent 的核心弱点——比人类差 ~13 个百分点
- 好的 RAG 基线(Gemini File Search)可以在 1/10 成本下达到 Agent 95% 的效果
- Kuiper 效率指标值得在 Agent 评估中推广
实践建议:
- 在你的文档 Agent 管线中加入”搜索策略模块”——不只是优化检索召回率,更要优化”何时停止搜索”
- 用 MADQA 作为评估套件:github.com/Snowflake-Labs/MADQA
- 在部署前对比你的 Agent 和简单 RAG baseline——如果差距不大,可能不需要 Agent 的复杂性
论文速查卡
| 项目 | 内容 |
|---|---|
| 标题 | Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections |
| 作者 | Łukasz Borchmann 等, Snowflake / UNC-Chapel Hill / Oxford / HuggingFace |
| 链接 | arXiv:2603.12180 |
| 发表 | 预印本 (2026-03-12) |
| 一句话总结 | MADQA 用 2,250 个人工问题 × 800 篇 PDF 首次系统证明:Agent 在文档集推理中靠暴力搜索弥补策略规划不足,准确率追平人类但行为路径完全不同,距 oracle 仍有 18% 差距 |
| 大白话版 | 想象一个在图书馆找资料的实习生——他很勤快,把每本书都翻一遍就能找到答案。但图书馆管理员只需翻三本书就搞定了。实习生和管理员的正确率差不多,但实习生浪费了 10 倍的时间 |
| 核心数字 | 最强 Agent 82.2% vs Human Oracle 99.4%(18% 差距);Agent 跨页准确率 66.8% vs 人类 79.6% |
| 复现评级 | ⭐⭐⭐⭐⭐ |
| 落地评级 | ⭐⭐⭐⭐ |