News

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

原文链接：https://arxiv.org/abs/2605.04036 代码：https://github.com/PolarSeeker/OpenSeeker 模型：https://huggingface.co/PolarSeeker/OpenSeeker-v2-30B-SFT 发布日期：2026-05-05

速查卡

项目	内容
一句话总结	OpenSeeker-v2 的主张不是“search agent 一定要靠 CPT+SFT+RL 重流水线”，而是证明只要合成出的轨迹足够难、足够长、信息足够密，单次 SFT 也能把 30B ReAct agent 推到同尺度开源学术队 SOTA。
核心改动	三个数据合成改动：更大的 graph expansion、更多工具、严格 low-step filtering。
数据规模	仅 10.6k 条训练样本。
基座模型	Qwen3-30B-A3B-Thinking-2507；30B total parameters，推理时 3B activated parameters。
评测结果	46.0% BrowseComp、58.1% BrowseComp-ZH、34.6% HLE、78.0% xbench。
对比亮点	同为约 30B ReAct 范式下，超过 Tongyi DeepResearch（43.4/46.7/32.9/75.0）和 RedSearcher-30B（42.1/49.8/34.3/-），而后两者用的是更重的 CPT+SFT+RL。
数据难度信号	平均每条轨迹 64.67 次 tool call；OpenSeeker-v1 为 46.97，RedSearcher 为 36.01。
关键词	search agent, SFT-only, high-difficulty trajectories, ReAct, BrowseComp, HLE

核心 Insight

OpenSeeker-v2 的核心观点可以压缩成一句话：

search agent 的上限，不一定先卡在训练 recipe，而可能先卡在训练轨迹的信息密度与难度下限。

论文认为工业界常见 recipe 是：

continual pre-training
supervised fine-tuning
reinforcement learning

但作者质疑：如果轨迹本身已经足够“迫使模型做长链探索”，是否还必须走这么重的 pipeline？

OpenSeeker-v2 给出的回答是：未必。

它不是靠更大数据量取胜，而是靠三件事提高单条轨迹含金量：

扩大任务生成时的 source graph；
增大工具集，让策略空间更丰富；
过滤掉工具步数过短的“水题”。

这使训练集虽然只有 10.6k，但更像是“高压缩、高难度”的 long-horizon search curriculum。

方法详解

方法总览

OpenSeeker-v2 基于 SFT 训练 search agent。论文的中心假设是：

只要训练数据足够难、足够 rich，标准 SFT objective 就足以诱导出强 long-horizon search 与 reasoning 能力。

具体方法有三步。

1. Scaling graph size for richer exploration

设全局 source graph 为 G=(V,E)，对每个 seed node v_seed，原始流水线只在其周围扩展一个局部子图。OpenSeeker-v2 把扩展预算从 k 提高到 K (K > k)：

G_sub^(K) = Expand(G, v_seed, K)

然后基于更大的子图生成问题：

q ~ P_gen(q | G_sub^(K))

直观上，这么做的作用是：

上下文里会出现更多拓扑相关 source；
可行 reasoning path 数量变多；
问题更可能要求多节点证据聚合，而不是靠单源检索秒解。

2. Expanding the tool set for broader functionality

给定问题 q，agent 使用更大的工具集合 A 生成多步 ReAct 轨迹：

τ = (r1, a1, o1, r2, a2, o2, ..., rT, aT, oT, rT+1, y)

其中：

a_t ∈ A 是工具调用；
o_t 是返回观测；
r_t 是每一步前的 reasoning trace；
T 是 tool-call 步数；
y 是最终答案。

工具集增大之后，agent 学到的不是单一搜索套路，而是更丰富的 interaction pattern 与工具互补策略。

3. Strict low-step filtering

论文最关键的“提纯”动作其实是这一步：

D_v2 = {(q, τ) ∈ D_raw | T(τ) ≥ T_min}

也就是直接丢掉那些低步数可解的轨迹。作者认为这类样本往往只是 direct lookup 或 shallow keyword matching，不足以训练持续搜索能力。

结果是：训练数据虽然更少，但最低难度被强行抬高。

训练策略

基座与推理设置

项目	论文设置
Base model	Qwen3-30B-A3B-Thinking-2507
总参数量	30B
推理激活参数	3B
context window	256k
每条轨迹最多 tool calls	200
训练方式	SFT only
RL	无
额外超参调优	无

数据策略而非算法技巧，是论文真正的训练重点

OpenSeeker-v2 不靠复杂 RL 奖励设计，也不强调 test-time planner，而是把训练策略几乎都放在数据构造阶段：

graph 扩大，让题更复杂；
tool set 扩大，让行为更多样；
low-step filtering，让简单样本出局。

这也解释了为什么论文把“data quality”而不是“training recipe sophistication”当成主要贡献点。

与现有方法区别

维度	重工业 recipe（Tongyi DeepResearch / RedSearcher 一类）	OpenSeeker-v2	含义
训练流水线	常见 CPT + SFT + RL	仅 SFT	资源门槛显著更低
数据目标	更大规模、更多阶段	更高难、更高信息密度的压缩轨迹	强调 sample efficiency
轨迹难度控制	论文未强调统一低步过滤	显式 low-step filtering	人为抬高训练难度下限
工具空间	常由系统既定	刻意扩展工具集	学更丰富策略
任务生成上下文	原始 graph 较小	扩大 evidence subgraph	促进 multi-hop aggregation

与 OpenSeeker-v1 的区别

OpenSeeker-v2 不是小修小补，而是直接把 v1 的数据构造原则升级：

维度	OpenSeeker-v1	OpenSeeker-v2
样本量	11.7k	10.6k
训练方式	SFT	SFT
数据难度信号	平均 46.97 步 tool call	平均 64.67 步 tool call
结果	BrowseComp 29.5, BC-ZH 48.4, xbench 74.0	BrowseComp 46.0, BC-ZH 58.1, xbench 78.0

这说明提升并非来自“更多数据”，而更像来自“更难数据”。

实验结果表格

主结果（论文 Table 1）

Model Name	# Samples	Training	Academic	BrowseComp	BC-ZH	HLE	xbench
Claude-4-Opus	?	?	×	18.8	37.4	-	-
Claude-4.5-Sonnet	?	?	×	24.1	42.4	32.0	-
Gemini-3-pro	?	?	×	37.8	66.8	45.8	-
OpenAI-o3	?	?	×	49.1	68.7	20.2	65.0
OpenAI Deep Research	?	?	×	51.5	42.9	26.6	-
GPT-5-High	?	?	×	54.9	63.0	41.7	-
DeepSeek-V3.1-671B	?	?	×	30.0	49.2	29.8	71.2
DeepSeek-V3.2-671B	?	?	×	51.4	65.0	40.8	-
GLM-4.6-357B	?	?	×	45.1	49.5	30.4	-
GLM-4.7-357B	?	?	×	52.0	66.6	42.8	-
Minimax-M2-230B	?	?	×	44.0	48.5	-	-
WebSailor-V2-30B-SFT	?	SFT	×	24.4	28.3	23.9	61.7
WebSailor-V2-30B-RL	?	SFT + RL	×	35.3	44.1	30.6	73.7
WebLeaper-30B-SFT	15k	SFT	×	27.7	-	-	66.0
WebLeaper-30B-RL	?	RL	×	38.8	-	-	72.0
Tongyi DeepResearch	?	CPT + SFT + RL	×	43.4	46.7	32.9	75.0
RedSearcher-30B	?	CPT + SFT + RL	×	42.1	49.8	34.3	-
OpenSeeker-v1-30B-SFT	11.7k	SFT	✓	29.5	48.4	-	74.0
OpenSeeker-v2-30B-SFT	10.6k	SFT	✓	46.0	58.1	34.6	78.0

注：论文表格对很多闭源或外部模型的 # Samples / Training 位置以 ? 或未披露形式呈现，这里按原文信息忠实保留，不补写未知值。

关键对比解读

对 Tongyi DeepResearch：
- BrowseComp：46.0 vs 43.4（+2.6）
- BC-ZH：58.1 vs 46.7（+11.4）
- HLE：34.6 vs 32.9（+1.7）
- xbench：78.0 vs 75.0（+3.0）
对 RedSearcher-30B：
- BrowseComp：46.0 vs 42.1（+3.9）
- BC-ZH：58.1 vs 49.8（+8.3）
- HLE：34.6 vs 34.3（+0.3）
对 OpenSeeker-v1：
- BrowseComp：29.5 → 46.0（+16.5）
- BC-ZH：48.4 → 58.1（+9.7）
- xbench：74.0 → 78.0（+4.0）

轨迹难度对比（论文 Figure 2）

数据来源	平均 tool call 步数
RedSearcher	36.01
OpenSeeker-v1	46.97
OpenSeeker-v2	64.67

论文把这个结果解释为：v2 训练数据要求更复杂的多步推理与更长跨度的信息搜寻，因此更适合训练 deep-research 型 agent。

消融 / 可扩展性

论文没有提供标准消融表

这篇论文没有像常规训练论文那样给出：

去掉大 graph 扩展；
去掉工具扩展；
去掉 low-step filtering；

之后各 benchmark 会掉多少分。也没有报告训练曲线或 compute / token 规模对性能的连续 scaling law。

但论文给出了两个可扩展性信号

1. OpenSeeker 框架尚未饱和

在同样的 30B + SFT 范式下，v2 相对 v1 有明显提升，说明这个框架还可以通过更高质量数据继续长大，而非已经碰天花板。

2. 更长轨迹与更强能力正相关

v2 轨迹平均 64.67 步，明显长于 v1 的 46.97 和 RedSearcher 的 36.01。作者的假设是：这类长而难的 synthetic trajectory 对获取 long-horizon retrieval / search capability 至关重要。

SOTA 对照矩阵

同尺度、同范式（约 30B，ReAct-based）对照

模型	训练方式	BrowseComp	BC-ZH	HLE	xbench	结论
WebSailor-V2-30B-SFT	SFT	24.4	28.3	23.9	61.7	明显落后
WebSailor-V2-30B-RL	SFT + RL	35.3	44.1	30.6	73.7	仍落后
Tongyi DeepResearch	CPT + SFT + RL	43.4	46.7	32.9	75.0	重流水线仍被超越
RedSearcher-30B	CPT + SFT + RL	42.1	49.8	34.3	-	v2 全面或基本持平以上
OpenSeeker-v1-30B-SFT	SFT	29.5	48.4	-	74.0	同框架前代
OpenSeeker-v2-30B-SFT	SFT	46.0	58.1	34.6	78.0	论文声称在其 model scale 与 ReAct 范式下达到 SOTA

与更大模型的关系

论文还强调，OpenSeeker-v2 超过了若干更大开源模型或闭源模型的部分指标，例如 DeepSeek-V3.1-671B、GLM-4.6-357B、Minimax-M2-230B、Claude-4.5-Sonnet。但要注意：这些比较跨越了模型规模、闭源条件和工具系统，不应被简化成“30B 全面打赢所有大模型”。

复现评估

维度	评分(1-5)	说明
论文清晰度	⭐⭐⭐⭐	方法很简单直接，公式与训练设定清楚。
开源可得性	⭐⭐⭐⭐	代码与模型都已给出。
数据复现难度	⭐⭐⭐	关键挑战是重建高质量 synthetic pipeline，而不是训练脚本。
训练资源门槛	⭐⭐⭐	30B 仍不低，但比 CPT+RL 流水线低得多。
结果可验证性	⭐⭐⭐	benchmark 清楚，但缺少 component-level ablation。

复现建议

先从 OpenSeeker-v1 -> v2 的数据合成差异入手，而不是先盯训练超参。
最值得做的复现是三组对照：
- 小 graph vs 大 graph
- 少工具 vs 多工具
- 无 low-step filtering vs 有 low-step filtering
如果算力有限，先验证“平均 tool-call 长度提升是否真带来 benchmark 提升”，这是论文最核心的因果链。

批判性分析

这篇论文最有价值的地方

它挑战了 search agent 的“重训练迷信”。 论文给出一个很强的反例：SFT-only 也能打赢若干 CPT+SFT+RL 系统。
它把数据难度显式制度化。 很多工作默认多步轨迹越多越好，但 OpenSeeker-v2 进一步把“低步样本应被过滤”写成明确规则。
结果对学术界尤其重要。 论文强调自己是“纯学术团队、仅靠 SFT、在该尺度与范式下做到 SOTA”的 open baseline，这对开源社区是很强信号。

主要局限

没有 ablation。 三个核心改动都合理，但本文没有拆出各自贡献占比。
难度指标主要用平均 tool-call 步数侧写。 这很有启发，但 tool 数不完全等价于“信息密度”或“推理质量”。
benchmark 仍是 benchmark。 BrowseComp / HLE / xbench 能证明 deep search 能力，但距离真实产品环境中的成本、稳定性、网页变化鲁棒性还有距离。
训练数据细节仍有门槛。 论文证明了 10.6k 可以很强，但“如何可靠地产出 10.6k 高质量高难轨迹”本身就是高价值 know-how。
正文有轻微表述不一致。 Section 2.2 写“five challenging agentic benchmarks”，但实际枚举与结果表只覆盖四个主要公开指标；这是写作层面的小瑕疵，不影响核心结论。

独立判断

OpenSeeker-v2 最值得记住的，不是某个具体分数，而是它重新排序了 search agent 研发中的优先级：

不是先问“要不要 RL”；
而是先问“你的轨迹到底够不够难、够不够长、够不够信息密”。

如果这个判断在更多论文里继续成立，那么 search agent 赛道会从“训练流水线军备竞赛”转向“高信息密度数据工程竞赛”。对开源研究者来说，这是非常重要的方向变化。