Esc
输入关键词开始搜索
News

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

原文链接:https://arxiv.org/abs/2605.04036 代码:https://github.com/PolarSeeker/OpenSeeker 模型:https://huggingface.co/PolarSeeker/OpenSeeker-v2-30B-SFT 发布日期:2026-05-05

速查卡

项目内容
一句话总结OpenSeeker-v2 的主张不是“search agent 一定要靠 CPT+SFT+RL 重流水线”,而是证明只要合成出的轨迹足够难、足够长、信息足够密,单次 SFT 也能把 30B ReAct agent 推到同尺度开源学术队 SOTA。
核心改动三个数据合成改动:更大的 graph expansion、更多工具、严格 low-step filtering。
数据规模仅 10.6k 条训练样本。
基座模型Qwen3-30B-A3B-Thinking-2507;30B total parameters,推理时 3B activated parameters。
评测结果46.0% BrowseComp、58.1% BrowseComp-ZH、34.6% HLE、78.0% xbench。
对比亮点同为约 30B ReAct 范式下,超过 Tongyi DeepResearch(43.4/46.7/32.9/75.0)和 RedSearcher-30B(42.1/49.8/34.3/-),而后两者用的是更重的 CPT+SFT+RL。
数据难度信号平均每条轨迹 64.67 次 tool call;OpenSeeker-v1 为 46.97,RedSearcher 为 36.01。
关键词search agent, SFT-only, high-difficulty trajectories, ReAct, BrowseComp, HLE

核心 Insight

OpenSeeker-v2 的核心观点可以压缩成一句话:

search agent 的上限,不一定先卡在训练 recipe,而可能先卡在训练轨迹的信息密度与难度下限。

论文认为工业界常见 recipe 是:

  • continual pre-training
  • supervised fine-tuning
  • reinforcement learning

但作者质疑:如果轨迹本身已经足够“迫使模型做长链探索”,是否还必须走这么重的 pipeline?

OpenSeeker-v2 给出的回答是:未必。

它不是靠更大数据量取胜,而是靠三件事提高单条轨迹含金量:

  1. 扩大任务生成时的 source graph;
  2. 增大工具集,让策略空间更丰富;
  3. 过滤掉工具步数过短的“水题”。

这使训练集虽然只有 10.6k,但更像是“高压缩、高难度”的 long-horizon search curriculum。

方法详解

方法总览

OpenSeeker-v2 基于 SFT 训练 search agent。论文的中心假设是:

只要训练数据足够难、足够 rich,标准 SFT objective 就足以诱导出强 long-horizon search 与 reasoning 能力。

具体方法有三步。

1. Scaling graph size for richer exploration

设全局 source graph 为 G=(V,E),对每个 seed node v_seed,原始流水线只在其周围扩展一个局部子图。OpenSeeker-v2 把扩展预算从 k 提高到 K (K > k)

G_sub^(K) = Expand(G, v_seed, K)

然后基于更大的子图生成问题:

q ~ P_gen(q | G_sub^(K))

直观上,这么做的作用是:

  • 上下文里会出现更多拓扑相关 source;
  • 可行 reasoning path 数量变多;
  • 问题更可能要求多节点证据聚合,而不是靠单源检索秒解。

2. Expanding the tool set for broader functionality

给定问题 q,agent 使用更大的工具集合 A 生成多步 ReAct 轨迹:

τ = (r1, a1, o1, r2, a2, o2, ..., rT, aT, oT, rT+1, y)

其中:

  • a_t ∈ A 是工具调用;
  • o_t 是返回观测;
  • r_t 是每一步前的 reasoning trace;
  • T 是 tool-call 步数;
  • y 是最终答案。

工具集增大之后,agent 学到的不是单一搜索套路,而是更丰富的 interaction pattern 与工具互补策略。

3. Strict low-step filtering

论文最关键的“提纯”动作其实是这一步:

D_v2 = {(q, τ) ∈ D_raw | T(τ) ≥ T_min}

也就是直接丢掉那些低步数可解的轨迹。作者认为这类样本往往只是 direct lookup 或 shallow keyword matching,不足以训练持续搜索能力。

结果是:训练数据虽然更少,但最低难度被强行抬高。

训练策略

基座与推理设置

项目论文设置
Base modelQwen3-30B-A3B-Thinking-2507
总参数量30B
推理激活参数3B
context window256k
每条轨迹最多 tool calls200
训练方式SFT only
RL
额外超参调优

数据策略而非算法技巧,是论文真正的训练重点

OpenSeeker-v2 不靠复杂 RL 奖励设计,也不强调 test-time planner,而是把训练策略几乎都放在数据构造阶段:

  • graph 扩大,让题更复杂;
  • tool set 扩大,让行为更多样;
  • low-step filtering,让简单样本出局。

这也解释了为什么论文把“data quality”而不是“training recipe sophistication”当成主要贡献点。

与现有方法区别

维度重工业 recipe(Tongyi DeepResearch / RedSearcher 一类)OpenSeeker-v2含义
训练流水线常见 CPT + SFT + RL仅 SFT资源门槛显著更低
数据目标更大规模、更多阶段更高难、更高信息密度的压缩轨迹强调 sample efficiency
轨迹难度控制论文未强调统一低步过滤显式 low-step filtering人为抬高训练难度下限
工具空间常由系统既定刻意扩展工具集学更丰富策略
任务生成上下文原始 graph 较小扩大 evidence subgraph促进 multi-hop aggregation

与 OpenSeeker-v1 的区别

OpenSeeker-v2 不是小修小补,而是直接把 v1 的数据构造原则升级:

维度OpenSeeker-v1OpenSeeker-v2
样本量11.7k10.6k
训练方式SFTSFT
数据难度信号平均 46.97 步 tool call平均 64.67 步 tool call
结果BrowseComp 29.5, BC-ZH 48.4, xbench 74.0BrowseComp 46.0, BC-ZH 58.1, xbench 78.0

这说明提升并非来自“更多数据”,而更像来自“更难数据”。

实验结果表格

主结果(论文 Table 1)

Model Name# SamplesTrainingAcademicBrowseCompBC-ZHHLExbench
Claude-4-Opus??×18.837.4--
Claude-4.5-Sonnet??×24.142.432.0-
Gemini-3-pro??×37.866.845.8-
OpenAI-o3??×49.168.720.265.0
OpenAI Deep Research??×51.542.926.6-
GPT-5-High??×54.963.041.7-
DeepSeek-V3.1-671B??×30.049.229.871.2
DeepSeek-V3.2-671B??×51.465.040.8-
GLM-4.6-357B??×45.149.530.4-
GLM-4.7-357B??×52.066.642.8-
Minimax-M2-230B??×44.048.5--
WebSailor-V2-30B-SFT?SFT×24.428.323.961.7
WebSailor-V2-30B-RL?SFT + RL×35.344.130.673.7
WebLeaper-30B-SFT15kSFT×27.7--66.0
WebLeaper-30B-RL?RL×38.8--72.0
Tongyi DeepResearch?CPT + SFT + RL×43.446.732.975.0
RedSearcher-30B?CPT + SFT + RL×42.149.834.3-
OpenSeeker-v1-30B-SFT11.7kSFT29.548.4-74.0
OpenSeeker-v2-30B-SFT10.6kSFT46.058.134.678.0

注:论文表格对很多闭源或外部模型的 # Samples / Training 位置以 ? 或未披露形式呈现,这里按原文信息忠实保留,不补写未知值。

关键对比解读

  1. 对 Tongyi DeepResearch

    • BrowseComp:46.0 vs 43.4(+2.6)
    • BC-ZH:58.1 vs 46.7(+11.4)
    • HLE:34.6 vs 32.9(+1.7)
    • xbench:78.0 vs 75.0(+3.0)
  2. 对 RedSearcher-30B

    • BrowseComp:46.0 vs 42.1(+3.9)
    • BC-ZH:58.1 vs 49.8(+8.3)
    • HLE:34.6 vs 34.3(+0.3)
  3. 对 OpenSeeker-v1

    • BrowseComp:29.5 → 46.0(+16.5)
    • BC-ZH:48.4 → 58.1(+9.7)
    • xbench:74.0 → 78.0(+4.0)

轨迹难度对比(论文 Figure 2)

数据来源平均 tool call 步数
RedSearcher36.01
OpenSeeker-v146.97
OpenSeeker-v264.67

论文把这个结果解释为:v2 训练数据要求更复杂的多步推理与更长跨度的信息搜寻,因此更适合训练 deep-research 型 agent。

消融 / 可扩展性

论文没有提供标准消融表

这篇论文没有像常规训练论文那样给出:

  • 去掉大 graph 扩展;
  • 去掉工具扩展;
  • 去掉 low-step filtering;

之后各 benchmark 会掉多少分。也没有报告训练曲线或 compute / token 规模对性能的连续 scaling law。

但论文给出了两个可扩展性信号

1. OpenSeeker 框架尚未饱和

在同样的 30B + SFT 范式下,v2 相对 v1 有明显提升,说明这个框架还可以通过更高质量数据继续长大,而非已经碰天花板。

2. 更长轨迹与更强能力正相关

v2 轨迹平均 64.67 步,明显长于 v1 的 46.97 和 RedSearcher 的 36.01。作者的假设是:这类长而难的 synthetic trajectory 对获取 long-horizon retrieval / search capability 至关重要。

SOTA 对照矩阵

同尺度、同范式(约 30B,ReAct-based)对照

模型训练方式BrowseCompBC-ZHHLExbench结论
WebSailor-V2-30B-SFTSFT24.428.323.961.7明显落后
WebSailor-V2-30B-RLSFT + RL35.344.130.673.7仍落后
Tongyi DeepResearchCPT + SFT + RL43.446.732.975.0重流水线仍被超越
RedSearcher-30BCPT + SFT + RL42.149.834.3-v2 全面或基本持平以上
OpenSeeker-v1-30B-SFTSFT29.548.4-74.0同框架前代
OpenSeeker-v2-30B-SFTSFT46.058.134.678.0论文声称在其 model scale 与 ReAct 范式下达到 SOTA

与更大模型的关系

论文还强调,OpenSeeker-v2 超过了若干更大开源模型或闭源模型的部分指标,例如 DeepSeek-V3.1-671B、GLM-4.6-357B、Minimax-M2-230B、Claude-4.5-Sonnet。但要注意:这些比较跨越了模型规模、闭源条件和工具系统,不应被简化成“30B 全面打赢所有大模型”。

复现评估

维度评分(1-5)说明
论文清晰度⭐⭐⭐⭐方法很简单直接,公式与训练设定清楚。
开源可得性⭐⭐⭐⭐代码与模型都已给出。
数据复现难度⭐⭐⭐关键挑战是重建高质量 synthetic pipeline,而不是训练脚本。
训练资源门槛⭐⭐⭐30B 仍不低,但比 CPT+RL 流水线低得多。
结果可验证性⭐⭐⭐benchmark 清楚,但缺少 component-level ablation。

复现建议

  1. 先从 OpenSeeker-v1 -> v2 的数据合成差异入手,而不是先盯训练超参。
  2. 最值得做的复现是三组对照:
    • 小 graph vs 大 graph
    • 少工具 vs 多工具
    • 无 low-step filtering vs 有 low-step filtering
  3. 如果算力有限,先验证“平均 tool-call 长度提升是否真带来 benchmark 提升”,这是论文最核心的因果链。

批判性分析

这篇论文最有价值的地方

  1. 它挑战了 search agent 的“重训练迷信”。 论文给出一个很强的反例:SFT-only 也能打赢若干 CPT+SFT+RL 系统。
  2. 它把数据难度显式制度化。 很多工作默认多步轨迹越多越好,但 OpenSeeker-v2 进一步把“低步样本应被过滤”写成明确规则。
  3. 结果对学术界尤其重要。 论文强调自己是“纯学术团队、仅靠 SFT、在该尺度与范式下做到 SOTA”的 open baseline,这对开源社区是很强信号。

主要局限

  1. 没有 ablation。 三个核心改动都合理,但本文没有拆出各自贡献占比。
  2. 难度指标主要用平均 tool-call 步数侧写。 这很有启发,但 tool 数不完全等价于“信息密度”或“推理质量”。
  3. benchmark 仍是 benchmark。 BrowseComp / HLE / xbench 能证明 deep search 能力,但距离真实产品环境中的成本、稳定性、网页变化鲁棒性还有距离。
  4. 训练数据细节仍有门槛。 论文证明了 10.6k 可以很强,但“如何可靠地产出 10.6k 高质量高难轨迹”本身就是高价值 know-how。
  5. 正文有轻微表述不一致。 Section 2.2 写“five challenging agentic benchmarks”,但实际枚举与结果表只覆盖四个主要公开指标;这是写作层面的小瑕疵,不影响核心结论。

独立判断

OpenSeeker-v2 最值得记住的,不是某个具体分数,而是它重新排序了 search agent 研发中的优先级:

  • 不是先问“要不要 RL”;
  • 而是先问“你的轨迹到底够不够难、够不够长、够不够信息密”。

如果这个判断在更多论文里继续成立,那么 search agent 赛道会从“训练流水线军备竞赛”转向“高信息密度数据工程竞赛”。对开源研究者来说,这是非常重要的方向变化。