OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
原文链接:https://arxiv.org/abs/2605.04036 代码:https://github.com/PolarSeeker/OpenSeeker 模型:https://huggingface.co/PolarSeeker/OpenSeeker-v2-30B-SFT 发布日期:2026-05-05
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | OpenSeeker-v2 的主张不是“search agent 一定要靠 CPT+SFT+RL 重流水线”,而是证明只要合成出的轨迹足够难、足够长、信息足够密,单次 SFT 也能把 30B ReAct agent 推到同尺度开源学术队 SOTA。 |
| 核心改动 | 三个数据合成改动:更大的 graph expansion、更多工具、严格 low-step filtering。 |
| 数据规模 | 仅 10.6k 条训练样本。 |
| 基座模型 | Qwen3-30B-A3B-Thinking-2507;30B total parameters,推理时 3B activated parameters。 |
| 评测结果 | 46.0% BrowseComp、58.1% BrowseComp-ZH、34.6% HLE、78.0% xbench。 |
| 对比亮点 | 同为约 30B ReAct 范式下,超过 Tongyi DeepResearch(43.4/46.7/32.9/75.0)和 RedSearcher-30B(42.1/49.8/34.3/-),而后两者用的是更重的 CPT+SFT+RL。 |
| 数据难度信号 | 平均每条轨迹 64.67 次 tool call;OpenSeeker-v1 为 46.97,RedSearcher 为 36.01。 |
| 关键词 | search agent, SFT-only, high-difficulty trajectories, ReAct, BrowseComp, HLE |
核心 Insight
OpenSeeker-v2 的核心观点可以压缩成一句话:
search agent 的上限,不一定先卡在训练 recipe,而可能先卡在训练轨迹的信息密度与难度下限。
论文认为工业界常见 recipe 是:
- continual pre-training
- supervised fine-tuning
- reinforcement learning
但作者质疑:如果轨迹本身已经足够“迫使模型做长链探索”,是否还必须走这么重的 pipeline?
OpenSeeker-v2 给出的回答是:未必。
它不是靠更大数据量取胜,而是靠三件事提高单条轨迹含金量:
- 扩大任务生成时的 source graph;
- 增大工具集,让策略空间更丰富;
- 过滤掉工具步数过短的“水题”。
这使训练集虽然只有 10.6k,但更像是“高压缩、高难度”的 long-horizon search curriculum。
方法详解
方法总览
OpenSeeker-v2 基于 SFT 训练 search agent。论文的中心假设是:
只要训练数据足够难、足够 rich,标准 SFT objective 就足以诱导出强 long-horizon search 与 reasoning 能力。
具体方法有三步。
1. Scaling graph size for richer exploration
设全局 source graph 为 G=(V,E),对每个 seed node v_seed,原始流水线只在其周围扩展一个局部子图。OpenSeeker-v2 把扩展预算从 k 提高到 K (K > k):
G_sub^(K) = Expand(G, v_seed, K)
然后基于更大的子图生成问题:
q ~ P_gen(q | G_sub^(K))
直观上,这么做的作用是:
- 上下文里会出现更多拓扑相关 source;
- 可行 reasoning path 数量变多;
- 问题更可能要求多节点证据聚合,而不是靠单源检索秒解。
2. Expanding the tool set for broader functionality
给定问题 q,agent 使用更大的工具集合 A 生成多步 ReAct 轨迹:
τ = (r1, a1, o1, r2, a2, o2, ..., rT, aT, oT, rT+1, y)
其中:
a_t ∈ A是工具调用;o_t是返回观测;r_t是每一步前的 reasoning trace;T是 tool-call 步数;y是最终答案。
工具集增大之后,agent 学到的不是单一搜索套路,而是更丰富的 interaction pattern 与工具互补策略。
3. Strict low-step filtering
论文最关键的“提纯”动作其实是这一步:
D_v2 = {(q, τ) ∈ D_raw | T(τ) ≥ T_min}
也就是直接丢掉那些低步数可解的轨迹。作者认为这类样本往往只是 direct lookup 或 shallow keyword matching,不足以训练持续搜索能力。
结果是:训练数据虽然更少,但最低难度被强行抬高。
训练策略
基座与推理设置
| 项目 | 论文设置 |
|---|---|
| Base model | Qwen3-30B-A3B-Thinking-2507 |
| 总参数量 | 30B |
| 推理激活参数 | 3B |
| context window | 256k |
| 每条轨迹最多 tool calls | 200 |
| 训练方式 | SFT only |
| RL | 无 |
| 额外超参调优 | 无 |
数据策略而非算法技巧,是论文真正的训练重点
OpenSeeker-v2 不靠复杂 RL 奖励设计,也不强调 test-time planner,而是把训练策略几乎都放在数据构造阶段:
- graph 扩大,让题更复杂;
- tool set 扩大,让行为更多样;
- low-step filtering,让简单样本出局。
这也解释了为什么论文把“data quality”而不是“training recipe sophistication”当成主要贡献点。
与现有方法区别
| 维度 | 重工业 recipe(Tongyi DeepResearch / RedSearcher 一类) | OpenSeeker-v2 | 含义 |
|---|---|---|---|
| 训练流水线 | 常见 CPT + SFT + RL | 仅 SFT | 资源门槛显著更低 |
| 数据目标 | 更大规模、更多阶段 | 更高难、更高信息密度的压缩轨迹 | 强调 sample efficiency |
| 轨迹难度控制 | 论文未强调统一低步过滤 | 显式 low-step filtering | 人为抬高训练难度下限 |
| 工具空间 | 常由系统既定 | 刻意扩展工具集 | 学更丰富策略 |
| 任务生成上下文 | 原始 graph 较小 | 扩大 evidence subgraph | 促进 multi-hop aggregation |
与 OpenSeeker-v1 的区别
OpenSeeker-v2 不是小修小补,而是直接把 v1 的数据构造原则升级:
| 维度 | OpenSeeker-v1 | OpenSeeker-v2 |
|---|---|---|
| 样本量 | 11.7k | 10.6k |
| 训练方式 | SFT | SFT |
| 数据难度信号 | 平均 46.97 步 tool call | 平均 64.67 步 tool call |
| 结果 | BrowseComp 29.5, BC-ZH 48.4, xbench 74.0 | BrowseComp 46.0, BC-ZH 58.1, xbench 78.0 |
这说明提升并非来自“更多数据”,而更像来自“更难数据”。
实验结果表格
主结果(论文 Table 1)
| Model Name | # Samples | Training | Academic | BrowseComp | BC-ZH | HLE | xbench |
|---|---|---|---|---|---|---|---|
| Claude-4-Opus | ? | ? | × | 18.8 | 37.4 | - | - |
| Claude-4.5-Sonnet | ? | ? | × | 24.1 | 42.4 | 32.0 | - |
| Gemini-3-pro | ? | ? | × | 37.8 | 66.8 | 45.8 | - |
| OpenAI-o3 | ? | ? | × | 49.1 | 68.7 | 20.2 | 65.0 |
| OpenAI Deep Research | ? | ? | × | 51.5 | 42.9 | 26.6 | - |
| GPT-5-High | ? | ? | × | 54.9 | 63.0 | 41.7 | - |
| DeepSeek-V3.1-671B | ? | ? | × | 30.0 | 49.2 | 29.8 | 71.2 |
| DeepSeek-V3.2-671B | ? | ? | × | 51.4 | 65.0 | 40.8 | - |
| GLM-4.6-357B | ? | ? | × | 45.1 | 49.5 | 30.4 | - |
| GLM-4.7-357B | ? | ? | × | 52.0 | 66.6 | 42.8 | - |
| Minimax-M2-230B | ? | ? | × | 44.0 | 48.5 | - | - |
| WebSailor-V2-30B-SFT | ? | SFT | × | 24.4 | 28.3 | 23.9 | 61.7 |
| WebSailor-V2-30B-RL | ? | SFT + RL | × | 35.3 | 44.1 | 30.6 | 73.7 |
| WebLeaper-30B-SFT | 15k | SFT | × | 27.7 | - | - | 66.0 |
| WebLeaper-30B-RL | ? | RL | × | 38.8 | - | - | 72.0 |
| Tongyi DeepResearch | ? | CPT + SFT + RL | × | 43.4 | 46.7 | 32.9 | 75.0 |
| RedSearcher-30B | ? | CPT + SFT + RL | × | 42.1 | 49.8 | 34.3 | - |
| OpenSeeker-v1-30B-SFT | 11.7k | SFT | ✓ | 29.5 | 48.4 | - | 74.0 |
| OpenSeeker-v2-30B-SFT | 10.6k | SFT | ✓ | 46.0 | 58.1 | 34.6 | 78.0 |
注:论文表格对很多闭源或外部模型的 # Samples / Training 位置以 ? 或未披露形式呈现,这里按原文信息忠实保留,不补写未知值。
关键对比解读
-
对 Tongyi DeepResearch:
- BrowseComp:46.0 vs 43.4(+2.6)
- BC-ZH:58.1 vs 46.7(+11.4)
- HLE:34.6 vs 32.9(+1.7)
- xbench:78.0 vs 75.0(+3.0)
-
对 RedSearcher-30B:
- BrowseComp:46.0 vs 42.1(+3.9)
- BC-ZH:58.1 vs 49.8(+8.3)
- HLE:34.6 vs 34.3(+0.3)
-
对 OpenSeeker-v1:
- BrowseComp:29.5 → 46.0(+16.5)
- BC-ZH:48.4 → 58.1(+9.7)
- xbench:74.0 → 78.0(+4.0)
轨迹难度对比(论文 Figure 2)
| 数据来源 | 平均 tool call 步数 |
|---|---|
| RedSearcher | 36.01 |
| OpenSeeker-v1 | 46.97 |
| OpenSeeker-v2 | 64.67 |
论文把这个结果解释为:v2 训练数据要求更复杂的多步推理与更长跨度的信息搜寻,因此更适合训练 deep-research 型 agent。
消融 / 可扩展性
论文没有提供标准消融表
这篇论文没有像常规训练论文那样给出:
- 去掉大 graph 扩展;
- 去掉工具扩展;
- 去掉 low-step filtering;
之后各 benchmark 会掉多少分。也没有报告训练曲线或 compute / token 规模对性能的连续 scaling law。
但论文给出了两个可扩展性信号
1. OpenSeeker 框架尚未饱和
在同样的 30B + SFT 范式下,v2 相对 v1 有明显提升,说明这个框架还可以通过更高质量数据继续长大,而非已经碰天花板。
2. 更长轨迹与更强能力正相关
v2 轨迹平均 64.67 步,明显长于 v1 的 46.97 和 RedSearcher 的 36.01。作者的假设是:这类长而难的 synthetic trajectory 对获取 long-horizon retrieval / search capability 至关重要。
SOTA 对照矩阵
同尺度、同范式(约 30B,ReAct-based)对照
| 模型 | 训练方式 | BrowseComp | BC-ZH | HLE | xbench | 结论 |
|---|---|---|---|---|---|---|
| WebSailor-V2-30B-SFT | SFT | 24.4 | 28.3 | 23.9 | 61.7 | 明显落后 |
| WebSailor-V2-30B-RL | SFT + RL | 35.3 | 44.1 | 30.6 | 73.7 | 仍落后 |
| Tongyi DeepResearch | CPT + SFT + RL | 43.4 | 46.7 | 32.9 | 75.0 | 重流水线仍被超越 |
| RedSearcher-30B | CPT + SFT + RL | 42.1 | 49.8 | 34.3 | - | v2 全面或基本持平以上 |
| OpenSeeker-v1-30B-SFT | SFT | 29.5 | 48.4 | - | 74.0 | 同框架前代 |
| OpenSeeker-v2-30B-SFT | SFT | 46.0 | 58.1 | 34.6 | 78.0 | 论文声称在其 model scale 与 ReAct 范式下达到 SOTA |
与更大模型的关系
论文还强调,OpenSeeker-v2 超过了若干更大开源模型或闭源模型的部分指标,例如 DeepSeek-V3.1-671B、GLM-4.6-357B、Minimax-M2-230B、Claude-4.5-Sonnet。但要注意:这些比较跨越了模型规模、闭源条件和工具系统,不应被简化成“30B 全面打赢所有大模型”。
复现评估
| 维度 | 评分(1-5) | 说明 |
|---|---|---|
| 论文清晰度 | ⭐⭐⭐⭐ | 方法很简单直接,公式与训练设定清楚。 |
| 开源可得性 | ⭐⭐⭐⭐ | 代码与模型都已给出。 |
| 数据复现难度 | ⭐⭐⭐ | 关键挑战是重建高质量 synthetic pipeline,而不是训练脚本。 |
| 训练资源门槛 | ⭐⭐⭐ | 30B 仍不低,但比 CPT+RL 流水线低得多。 |
| 结果可验证性 | ⭐⭐⭐ | benchmark 清楚,但缺少 component-level ablation。 |
复现建议
- 先从
OpenSeeker-v1 -> v2的数据合成差异入手,而不是先盯训练超参。 - 最值得做的复现是三组对照:
- 小 graph vs 大 graph
- 少工具 vs 多工具
- 无 low-step filtering vs 有 low-step filtering
- 如果算力有限,先验证“平均 tool-call 长度提升是否真带来 benchmark 提升”,这是论文最核心的因果链。
批判性分析
这篇论文最有价值的地方
- 它挑战了 search agent 的“重训练迷信”。 论文给出一个很强的反例:SFT-only 也能打赢若干 CPT+SFT+RL 系统。
- 它把数据难度显式制度化。 很多工作默认多步轨迹越多越好,但 OpenSeeker-v2 进一步把“低步样本应被过滤”写成明确规则。
- 结果对学术界尤其重要。 论文强调自己是“纯学术团队、仅靠 SFT、在该尺度与范式下做到 SOTA”的 open baseline,这对开源社区是很强信号。
主要局限
- 没有 ablation。 三个核心改动都合理,但本文没有拆出各自贡献占比。
- 难度指标主要用平均 tool-call 步数侧写。 这很有启发,但 tool 数不完全等价于“信息密度”或“推理质量”。
- benchmark 仍是 benchmark。 BrowseComp / HLE / xbench 能证明 deep search 能力,但距离真实产品环境中的成本、稳定性、网页变化鲁棒性还有距离。
- 训练数据细节仍有门槛。 论文证明了 10.6k 可以很强,但“如何可靠地产出 10.6k 高质量高难轨迹”本身就是高价值 know-how。
- 正文有轻微表述不一致。 Section 2.2 写“five challenging agentic benchmarks”,但实际枚举与结果表只覆盖四个主要公开指标;这是写作层面的小瑕疵,不影响核心结论。
独立判断
OpenSeeker-v2 最值得记住的,不是某个具体分数,而是它重新排序了 search agent 研发中的优先级:
- 不是先问“要不要 RL”;
- 而是先问“你的轨迹到底够不够难、够不够长、够不够信息密”。
如果这个判断在更多论文里继续成立,那么 search agent 赛道会从“训练流水线军备竞赛”转向“高信息密度数据工程竞赛”。对开源研究者来说,这是非常重要的方向变化。