News

AutoResearchBench 深度解读

原文链接：https://arxiv.org/html/2604.25256 arXiv 摘要页：https://arxiv.org/abs/2604.25256 项目仓库：https://github.com/CherYou/AutoResearchBench 原文标题：AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery 作者：AutoResearchBench Team（Core Contributors 包括 Lei Xiong、Kun Luo、Ziyi Xia、Wenbo Zhang、Jin-Ge Yao、Zheng Liu 等） arXiv 提交日期：2026-04-28 核对说明：已基于论文全文与附录撰写；本文只引用原文明确给出的数字与结论，不补写论文未公开报告的 baseline 细项。

速查卡

项目	内容
一句话总结	AutoResearchBench 不是再做一个“能不能搜到论文”的轻量 benchmark，而是把科学文献发现拆成“精确找到唯一目标论文”和“完整找全一个受约束论文集合”两类高难任务，直接暴露当前 research agent 的真实短板。
大白话版	以前很多 agent 基准更像“会不会网上找资料”，这篇论文问的是更像研究员日常的问题：你能不能在 300 万篇论文里，根据一串不显眼、藏在正文细节里的条件，找出唯一一篇，或者找全所有符合条件的论文。结果是：最强模型也基本做不动。
Benchmark 规模	1000 个 query，其中 600 个 Deep Research、400 个 Wide Research，覆盖 8 个核心计算机科学领域。
关键数据资产	基于 300 万+ arXiv 论文构建受控语料库，支持结构化元数据、全文访问与 agentic search。
最关键结果	Deep Research 最好只有 9.39% accuracy；Wide Research 最好只有 9.31% IoU；很多强 baseline 仍低于 5%。
Wide 任务特点	400 个 query 共对应 3692 篇 gold papers，平均每个 query 有 9.23 个正确答案，初始平均候选 33 篇。
这篇论文真正的新东西	不是“又一个论文检索数据集”，而是第一次把 research-oriented、full-text-first、open-ended 的科学文献发现过程做成大规模、受控、可验证的 agent benchmark。
评级	A — 这是一个非常扎实的“能力诊断型 benchmark”，其价值不在刷分，而在把 autonomous research agent 的真实瓶颈暴露得很清楚。

核心 Insight

AutoResearchBench 最值得记住的洞察是：科学文献发现并不是“web browsing 更难一点”的同类问题，而是另一条几乎独立的能力前线。

原因在于，这类任务要求 agent 同时具备四种能力，而且四种能力缺一不可：

能在超大语料里持续检索，而不是一两轮命中；
能读论文全文细节，而不是只看标题、摘要和 snippets；
能处理多重、隐含、技术性很强的约束组合；
能判断自己是否已经“找全了”或“根本不存在答案”。

这和传统网页问答的差异很大。一般 web benchmark 往往默认答案存在、边界明确、可由短证据片段支持，甚至很多时候只要找到一个强相关页面就够了。但真实科研检索里，决定性证据可能分散在 appendix、ablation、figure caption、citation context 甚至作者机构关系里；更难的是，问题经常不是“这篇论文讲什么”，而是“是否存在满足一组技术细节交集的论文集合”。

论文最有说服力的地方在于，它没有停留在概念层面，而是用实验把这个断层直接量化出来：那些在 BrowseComp 一类通用 browsing benchmark 上已经很强的模型，到了 AutoResearchBench 上，Deep 最好只有 9.39%，Wide 最好只有 9.31%。这说明当前很多所谓的“deep research agent”其实更擅长通用网页环境中的搜索—阅读—总结，而不擅长真正的科学证据发现。

方法详解

1. 任务定义：把科研检索拆成 Deep 和 Wide 两种基本工作流

论文把 autonomous scientific literature discovery 明确拆成两类任务。

第一类是 Academic Deep Research。它要求 agent 在大语料里找到唯一满足条件的一篇论文，或者严格判定不存在答案。形式上，ground truth 集合的大小满足 $|Y^*(q)| \in \{0,1\}$ 。这类任务的难点不在 recall，而在“唯一定位”：每条 clue 单独看都很弱，只有把它们连起来，才能排除大量相似论文。

第二类是 Academic Wide Research。它要求 agent 找到满足条件的完整论文集合。这里重点不再是唯一命中，而是集合边界是否正确：漏了不行，多了也不行。论文因此使用 IoU 而不是 top-k 指标，因为作者真正想测的是“系统是否理解了这个技术概念的边界”。

如果用研究员工作来类比：

Deep 更像“找到那篇我记得细节但记不起标题的论文”；
Wide 更像“把某个受严格约束的研究方向做成完整 literature coverage”。

这两个场景都非常常见，而且对 agent 的能力要求完全不同。

2. 数据构建核心：full-text-first，而不是 metadata-first

这篇论文的方法价值，很大一部分不在模型，而在 benchmark construction pipeline。

作者强调，任务不是从标题、摘要或关键词倒推出来的，而是从论文全文细节出发构建。整个 benchmark 建在一个受控的 300 万+ arXiv 论文语料之上，依托 DeepXiv 提供搜索、元数据和全文访问。

这个设计解决了两个老问题：

避免 benchmark 被浅层 lexical matching 轻易打穿；
让 agent 的能力真正落在“全文证据发现与验证”上，而不是网页 SEO 或 snippet 相关性上。

3. Deep Research 的构造流程：让线索足够弱，但组合起来唯一

Deep 任务采用四阶段流程。

阶段 1：目标论文选择

作者优先挑选不容易被直接记忆命中的、但技术上扎实的计算机科学论文，通常引用量在 10–100 之间，并排除 survey 与宽泛技术报告。这样做的目的是避免模型单靠记忆或高曝光 metadata 就能命中。

阶段 2：全文约束挖掘 + citation 多跳扩展

标注者阅读论文全文，必要时连 supplementary appendix 一起看，从中挖出细粒度线索，比如：

次要但可验证的方法选择；
推导或证明中的局部细节；
局部实验观察；
作者—机构关系；
引用链中的支撑性证据。

作者明确避开 headline clues，比如数据集名、主 claim、主贡献等。这一步很关键，因为它强制任务从“找显眼关键词”变成“做多跳证据定位”。

阶段 3：约束模糊化与剪枝

原始线索不会直接暴露给 agent，而是经过两级 fuzzification：

topic-level fuzzification：避免直接说出研究主题；
detail-level fuzzification：对局部证据做释义，减少关键词直搜命中率。

随后作者反复测试 query，删除冗余约束，只保留“拿掉就不再唯一”的必要线索。这就是论文强调的 minimal sufficiency 原则。

阶段 4：对抗式验证

每个任务会被 frontier agent 和人工标注者在同一 DeepXiv 环境中反复求解。只有满足以下条件才保留：

答案可被明确文本证据支持，或 no-answer 确实在语料里不存在；
所有 plausible alternatives 都能系统排除；
不存在浅层 reformulation 让任务突然变简单。

作者还在附录给出了更严格的 4-stage deep verification：

GPT-5.4 多种 query 改写做 shortcut screening；
Claude 4.6 Sonnet 与 Gemini 3 Flash 做 agent stress test；
人类在 10 分钟预算内做对抗搜索；
最后做人类 uniqueness audit。

也就是说，留下来的 Deep 题几乎都是“既不该被一搜即中，也不该被轻松排除歧义”的那种硬题。

4. Wide Research 的构造流程：不是找代表作，而是逼近完整集合

Wide 任务的目标是逼近完整答案集 $Y^*(q)=\{d\in\mathcal{D}\mid d \models q\}$ 。作者同样设计了四阶段流程。

阶段 1：候选池来源构建

先按计算机科学核心主题定义高层研究方向，再用外部搜索工具收集初始候选池，之后用 LLM 过滤和总结，保证主题一致性。

阶段 2：结构抽象与 query 形成

从候选论文中抽取共享属性，比如方法、数据集、结果和时间约束，构成 entity graph，再把这些共享约束翻成初始 query。

阶段 3：query 改写与初步人工校验

作者把初始 query 写成自然语言的科学研究意图，同时不放松逻辑约束。人工标注者再检查 query 和 candidate set 是否一致，并补充漏掉的有效论文。

阶段 4：迭代扩展与严格审计

系统通过搜索反复扩展候选集合，新找到的论文都要经过全文分析，并由三个先进模型做一致性判断。只有 unanimous consensus 才能进入候选答案，直到没有新有效候选出现为止，最后再由人工专家做边界审计。

附录里的验证细节更加具体：

每个问题会生成约 10 个不同维度的搜索 query；
这些 query 总共带来 31,734 篇候选论文；
经摘要级筛选后保留 23,217 篇，保留率 73.2%；
平均每题候选为 33.0 篇，标准差 15.2；
最终 20,251 篇候选能成功取到全文；
只有 4,887 篇通过三模型多数投票，占 24.1%；
75.9% 的候选在验证中被拒绝。

这套流程的本质，是把“找全”从一个模糊目标，变成一个有明确 verification discipline 的过程。

5. 统计特征：为什么这个 benchmark 结构上就难

论文给出的关键统计数据非常重要：

统计项	Deep Research	Wide Research
Query 数量	600	400
总答案数	540	3692
答案基数	{0,1}	[2,34]
平均每题答案数	–	9.23

进一步看：

全 benchmark 共 1000 个 query，其中 600 deep、400 wide；
Deep 中 90% 是唯一答案，10% 是故意构造的无答案问题；
Wide 共覆盖 3692 篇论文；
Wide 平均每题 9.23 个正确答案；
Wide 每题初始平均候选 33 篇。

这个分布说明它难的不是“答案藏得深一点”，而是任务拓扑本身更难：

Deep 要做 exact identification；
Wide 要做 constrained set completion；
而且 Wide 还是明显长尾分布，少数 query 会返回二十多篇以上候选。

6. 评测协议：统一 ReAct agent + DeepXiv 工具环境

为了保证可比性，论文使用统一的 ReAct agent 框架，让不同模型都在相同工具环境中跑。核心设置包括：

最大 30 turns；
soft context budget 约 1.1 × 10^5 tokens；
每次 search 默认展示 10 篇结果；
planner temperature 为 0.6；
每轮 completion 最多 4096 新 token。

Deep 与 Wide 的主要区别不在 agent 壳子，而在任务目标与 stopping criterion：

Deep 需要在有限轨迹内给出唯一答案或空答案；
Wide 需要在持续扩展和严格过滤之间取得平衡，并决定何时停止。

实验结果

实验结果表格

实验设置	对比项	论文报告结果	我们的解读
主结果（Deep）	Claude-Opus-4.6	9.39% Accuracy	全文检索 hardest setting 下的最佳 Deep 成绩，但仍意味着 90% 以上题目失败。
主结果（Wide）	Gemini-3.1-Pro-Preview	9.31% IoU	当前最强 Wide 结果依然不到 0.1 IoU，离“找全且不多找”很远。
主结果（总体）	很多强 baseline	低于 5%	论文明确指出 many strong baselines fall below 5%，说明问题不是个别模型失手，而是范式级难题。
Open-source 代表	Qwen3.5-397B-A17B	Deep 6.97%，Wide 3.83%	大模型开源路线在 Deep 能到中等水平，但 Wide 集合边界能力明显更弱。
Open-source 代表	DeepSeek-V3.2	Deep 4.21%，Wide 7.70%	对 Wide 更强，说明不同模型对“唯一定位”和“广覆盖过滤”的能力结构并不相同。
Closed-source 代表	GPT-5.4	Deep 7.44%，Wide 8.12%	分数不最高，但效率极高，说明“少而准”的轨迹有时比长链搜索更有效。
Closed-source 代表	Seed-2.0-Pro	Deep 6.80%，Wide 7.87%	Wide 的 precision/recall 平衡相对较稳，但仍离完整覆盖很远。
长轨迹代表	Claude-Opus-4.6	Deep 28.1 turns，Wide 27.11 turns	轨迹特别长，但 Wide IoU 只有 6.56%，说明更多步数并不自动带来更好边界判断。
End-to-end 系统	GPT Deep Research	Deep 11/50，Wide 4.06 IoU	现成产品形态也没跨过这个能力坎。
数据集属性	Wide Research	平均 9.23 答案/题；初始 33 候选/题	这是一个典型“高验证成本”的集合检索任务，不是找一个代表样本就算完成。

主结果怎么读

论文最核心的主结果可以概括成四点。

第一，AutoResearchBench 的难度远高于通用 browsing benchmark。论文直接指出：Claude-Opus-4.6 在 Deep 上最好只有 9.39%，Gemini-3.1-Pro-Preview 在 Wide 上最好只有 9.31%，而通用网页基准上分数可以超过 80%。这个对比很说明问题：science search 的难点不是“要多搜几轮”，而是证据粒度、约束复杂度和 stopping 决策完全不同。

第二，长轨迹不等于高质量检索。例如 GPT-5.4 在 Deep 上只用 6.1 turns 就达到 7.44%，而 DeepSeek-V3.2 与 Kimi-K2.5 分别用了 28.8 和 27.0 turns，结果只有 4.21% 和 4.69%。这表明大量额外交互经常只是重复看相似论文、提出冗余 query，或者在错误假设上继续滚雪球。

第三，Deep 和 Wide 是两类不同瓶颈。 Claude-Opus-4.6 在 Deep 上最强，但在 Wide 只有 6.56%；Gemini-3.1-Pro-Preview 在 Wide 上最好，但 Deep 不是第一。这说明“找到唯一目标”与“定义集合边界”不能混成一个能力。

第四，现有系统更多是败在验证与边界控制，而不是完全搜不到相关文献。论文明确说，失败很少是因为完全没接触到相关论文，更常见的是：

找到 plausible candidates 却无法精确验证约束；
无法排除边界案例；
无法把分散证据整合成最终判断；
或者在 Wide 里不知道什么时候该继续找、什么时候该停。

不同 search tools 的分析

论文把同一个 ReAct agent 分别接到 open-web search 与 DeepXiv 上，结论很明确：DeepXiv 更适合科学文献发现。

结果表

模型	工具	Deep Acc	Wide IoU	关键信号
Gemini-3-Flash	WebSearch	2.01	3.99	开放网页环境下两项都明显更低。
Gemini-3-Flash	DeepXiv	2.75	6.61	仅换工具后 Wide 几乎提升到 1.66 倍。
Gemini-3.1-Pro	WebSearch	6.82	7.37	已经不差，但仍不如专门学术工具。
Gemini-3.1-Pro	DeepXiv	7.93	9.31	当前 Wide 最佳结果来自 DeepXiv。
Seed-2.0-Pro	WebSearch	3.96	4.18	网页结果的噪声和碎片化更影响约束验证。
Seed-2.0-Pro	DeepXiv	6.80	7.87	Deep 与 Wide 均显著受益。
DeepSeek-V3.2	WebSearch	3.09	4.78	长轨迹下仍受开放网页证据质量限制。
DeepSeek-V3.2	DeepXiv	4.21	7.70	专门全文索引对科学检索是必要基础设施。

论文结论怎么理解

作者报告：在四个匹配模型上取平均，Deep Search accuracy 从 DeepXiv 的 5.42% 降到 open-web search 的 3.97%。

这背后的原因并不神秘：Deep query 的 clue 经常来自论文内部正文、附录、局部表格和 citation context，这些内容既不一定在标题和摘要里，也常常不会完整暴露在网页 snippets 里。开放网页搜索即使能找到“差不多相关”的页面，也很难稳定支持严格约束验证。

换句话说，科学检索 agent 的问题不只是“模型够不够聪明”，还包括“检索接口是否真的把全文证据暴露给它”。AutoResearchBench 的一个重要启发就是：tooling 本身就是能力的一部分。

不同 thinking modes 的分析

论文比较了 Think 和 NoThink 两种模式，结论很反直觉：显式思考并没有稳定提高成绩，反而经常拖慢系统，尤其对 Wide 更不利。

结果表

模型	模式	Deep Acc	Wide IoU	论文信号
Gemini-3-Flash	Think	1.83	2.53	想得更多，结果更差。
Gemini-3-Flash	NoThink	2.75	6.61	更短路径反而更有效。
Qwen3-Max	Think	2.33	4.18	显式思考带来更多 turn，但没带来更好证据。
Qwen3-Max	NoThink	3.24	6.89	对 Wide 提升明显。
DeepSeek-V3.2	Think	5.67	4.28	在 Deep 有小幅改善，但 Wide 明显下降。
DeepSeek-V3.2	NoThink	4.21	5.96	对集合搜索更稳。

这意味着什么

论文的解释很到位：额外 reasoning 只有在它能直接改善 external evidence acquisition 时才有用；否则它主要只是增加延迟与无效 deliberation。

这点对 research agent 很关键。很多人默认“更强 reasoning = 更强 search”，但这篇论文说明，科学检索并不是一个单纯靠 chain-of-thought 就能堆出来的任务。真正有价值的是：

想到新的判别性 query；
识别哪些约束还没验证；
决定接下来该看哪篇论文；
在 Wide 里系统地补 recall 或收 precision。

如果思考过程只是把现有不确定性复述一遍，那么它对结果没有帮助。

Test-time scaling 分析

论文进一步研究了多次独立运行的 test-time scaling 效果。结论是：加算力有帮助，但主要帮助 Deep，对 Wide 的帮助明显更小。

论文结论

Deep Research 用 pass@k 衡量，多跑几次通常更有收益；
Wide Research 用 oracle best@k IoU 衡量，提升相对有限；
Kimi-K2.5 在 Deep 上对更大 k 更敏感；
Gemini-3.1-Pro 在 Wide 上仍保持最强。

为什么 Deep 比 Wide 更吃 test-time scaling

论文给出的解释非常合理：

Deep 的很多失败来自 trajectory-level brittleness，也就是“这次走错了一步，整条路径就歪了”。因此多跑几次，相当于多采样几条搜索轨迹，运气好时能走上正确路径。

Wide 则更多是 recall bottleneck。也就是说，多跑几次往往会重复漏掉同一类边界论文，而不是自动补上互补证据。它不是“运气不好”，而是“搜索策略本身不覆盖”。

这意味着 test-time scaling 对科学检索并不是万能药：

对 Deep，它能缓解决策不稳定；
对 Wide，它无法替代系统性的覆盖策略和严格过滤机制。

Error types：当前 research agent 到底错在哪

这部分是整篇论文最有诊断价值的地方之一。作者人工分析了错误案例，并给出 Deep 与 Wide 的错误类型 taxonomy。

Deep Research 的主要错误类型

错误类型	含义	我们的理解
Retrieval Drift & Semantic Confusion	到了正确主题附近，但选成相邻论文	不是完全搜不到，而是无法完成最后一跳的精确判定。
Tool Execution Failures	tool call 格式错、解析失败、执行中断	在高成本长轨迹环境里，工具稳定性本身就是能力组成部分。
Evidence Aggregation Failures	证据拿到了，但没能整合成结论	当前 agent 普遍缺“约束状态管理器”。
Candidate Ranking Failures	gold 已在候选里，但最终排错	reranking 与最终提交环节仍然脆弱。

作者特别提到一个很有代表性的现象：在 evidence aggregation failure 中，6 条轨迹最后都交了空候选，尽管平均已经跑了 22.7 turns、看了 119.2 篇论文。也就是说，问题不一定是没看到证据，而是没有把证据组织成行动。

Wide Research 的主要错误类型

错误类型	论文描述	我们的解读
GT semantic boundary misalignment	语义上很接近 gold，但没命中问题要求的精确实体边界	说明系统“差不多懂了”，但不够严格。
Precision-unconstrained candidate expansion	候选集合过宽，没有逐条应用所有约束	典型高 recall、低 precision 失控。
Constraint literalism and premature termination	对表面约束过于字面化，过早排除有效论文并提前停止	搜索策略缺乏弹性，也缺乏继续扩展的意愿。
Scientific knowledge coverage gap	领域术语理解不够，导致即使候选出现也认不出来	这不是检索接口问题，而是 scientific understanding 不够。

论文还给出了一些很具体的分布信息：

对 Gemini-3.1-Pro，GT semantic boundary misalignment 是主导错误，占 68.0%；
对 Seed-2.0-Pro，这类错误也有 36.0%；
Claude Opus 4.5 的 Wide 错误几乎被 precision-unconstrained candidate expansion 主导，占 85.3%；
Gemini-3.1-Pro 的 scientific knowledge coverage gap 占 13.3%。

这组结果非常有启发。

它说明不同模型不是在同一个地方错：

有的模型能找到邻近边界，但最后收不紧；
有的模型为了不漏，结果把 precision 彻底放掉；
有的模型主要是 scientific concept grounding 不足；
有的模型则在搜索停止策略上有系统性问题。

关于 Wide 低 precision，论文还做了一个关键排错

一个常见怀疑是：会不会 benchmark 的 gold set 不完整，所以模型多找出来的“错答案”其实很多是真的？

论文专门做了人工审计：从顶级模型的 out-of-ground-truth 预测中随机抽样，盲审发现其中 96% 确实违反了至少一个明确约束，也就是真正的 false positives。这很重要，因为它说明 Wide 里的低 precision 主要真的是 model-side reasoning error，而不是 benchmark 漏标严重。

复现评估

维度	评分(1-5)	详细说明
数据可得性	⭐⭐⭐⭐	论文公开了数据集、评测管线与代码仓库，且基于公开 arXiv/DeepXiv 语料；但完整复现仍依赖大规模全文索引与工具环境。
代码可得性	⭐⭐⭐⭐	项目仓库已公开，这是 benchmark 工作非常重要的加分项。
算力成本	⭐⭐	论文附录显示构建与验证成本非常高，数据构建估计 API 成本约 6700 美元，专家人工约 580 小时。
工程复杂度	⭐⭐	受控语料、全文抓取、三模型投票、人工审计、统一 agent 框架都很重。
研究价值	⭐⭐⭐⭐⭐	如果你的目标是做 academic search agent 或 autonomous scientist，这几乎是目前最有诊断价值的一类 benchmark。

批判性分析

论文的主要贡献很清楚

它第一次把 scientific literature discovery 明确拆成 Deep 和 Wide 两类基本能力。
它坚持 full-text-first，避免 benchmark 被 metadata shortcut 轻易攻破。
它用受控 300 万+ 论文语料和统一工具环境，把“能力差”与“环境噪声”分开。
它不只给 leaderboard，还给了 search tools、thinking modes、test-time scaling、error types 的系统分析。

但它也有明确边界

语料主要是计算机科学。论文自己承认当前主要聚焦 CS 论文，跨学科科学文献、动态更新文献、多模态证据都还没覆盖。
Wide 的“绝对完整”仍然是困难目标。作者已经做了很严格的补全和人工审核，但在超大语料边界上，exhaustive set completeness 本身就是开放问题。
目前主要评估文本型 search + reasoning。这意味着它还没有纳入图表解析、代码仓库、实验日志、supplementary artifacts 等更真实的 research evidence。

我们的独立观察

最值得注意的一点是：这篇论文实际上在挑战整个“deep research product narrative”。

过去很多产品与 demo 会给人一种印象：只要模型更会搜、更会总结，就已经接近研究助理了。但 AutoResearchBench 告诉我们，真正研究流程里的文献发现，难点是：

找证据不是找网页；
找相关不是找正确；
找到一些不是找全；
多想几步不是更会验证；
多跑几次也不自动等于更完整。

这使它不仅是一个 benchmark，也是一份能力边界报告。

对领域的影响

AutoResearchBench 对后续 research agent 方向，至少会有四个影响。

第一，学术搜索工具会重新被重视。论文已经说明，DeepXiv 这种全文可访问、结构化、面向论文内部证据的检索接口，不是锦上添花，而是 agent 能力上限的重要组成部分。

第二，agent architecture 需要显式的 evidence state management。现在大量失败都不是“没找到”，而是“没管理好找到的东西”。未来系统可能需要更像 working memory / constraint tracker / evidence ledger 这样的模块，而不是只有通用 CoT。

第三，Wide-style completeness 会成为下一轮 agent 研究重点。目前很多 agent 更擅长“给一个 plausible answer”，但真正科研工作需要的是 coverage with precision。这会推动集合检索、边界推理与 stopping policy 研究。

第四，benchmark 设计会从 web-centric 转向 task-structure-centric。 AutoResearchBench 的成功说明，一个高价值 benchmark 不只是换领域名词，而是要重构任务拓扑、验证流程与工具环境。未来医学、法律、政策、专利等领域很可能沿着类似范式发展。

总结

AutoResearchBench 的真正价值，不是证明“现在模型不行”这么简单，而是更精确地证明：科学文献发现是一类尚未被 current deep research agent 真正解决的独立难题。

它把问题拆得非常清楚：

Deep 任务要求唯一定位与严格验证；
Wide 任务要求集合边界判断与完整覆盖；
工具、思考模式、测试时扩展都能带来局部帮助，但都无法根治根本瓶颈；
真正的难点集中在 scientific grounding、constraint management、coverage control 和 evidence integration 上。

如果你关心 autonomous scientist、research copilot 或下一代 academic search agent，这篇论文非常值得读，因为它不只是给出一个新分数，更给出了一套极其清晰的问题定义。

速查卡
核心 Insight
方法详解
1. 任务定义：把科研检索拆成 Deep 和 Wide 两种基本工作流
2. 数据构建核心：full-text-first，而不是 metadata-first
3. Deep Research 的构造流程：让线索足够弱，但组合起来唯一
4. Wide Research 的构造流程：不是找代表作，而是逼近完整集合
5. 统计特征：为什么这个 benchmark 结构上就难
6. 评测协议：统一 ReAct agent + DeepXiv 工具环境
实验结果
实验结果表格
主结果怎么读
不同 search tools 的分析
结果表
论文结论怎么理解
不同 thinking modes 的分析
结果表
这意味着什么
Test-time scaling 分析
论文结论
为什么 Deep 比 Wide 更吃 test-time scaling
Error types：当前 research agent 到底错在哪
Deep Research 的主要错误类型
Wide Research 的主要错误类型
关于 Wide 低 precision，论文还做了一个关键排错
复现评估
批判性分析
论文的主要贡献很清楚
但它也有明确边界
我们的独立观察
对领域的影响
总结