News

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

原文链接：https://arxiv.org/abs/2603.15594 作者：Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen 机构：上海交通大学发布日期：2026-03-19

速查卡

项目	内容
一句话总结	纯学术团队用 11.7k 合成样本 + 纯 SFT 训练出超越多个工业级搜索 Agent 的全开源模型
大白话版	搜索 Agent 一直是大公司的专利——有数据但不公开。上海交大团队自己造了一万多条高质量训练数据，只用最简单的训练方法（SFT），就让 30B 模型在多个搜索基准上超越了阿里通义 DeepResearch（后者用了 CPT+SFT+RL 三阶段训练）
核心数字	• BrowseComp 29.5%（开源 SOTA，vs DeepDive 15.3%）• BrowseComp-ZH 48.4%（超越通义 DeepResearch 46.7%）• 仅 11.7k 训练样本 • 单次训练运行、无超参调优
评级	B+ — 重要的开源贡献。数据合成方法精巧，结果令人信服，且完全开源
代码	模型权重 + 完整训练数据集均开源
关键词	Search Agent, Open Source, Data Synthesis, Denoised Trajectory, Web Graph, BrowseComp, SFT

核心 Insight

搜索 Agent 领域存在一个巨大的”数据护城河”：OpenAI、Google、Kimi 等公司拥有高质量训练数据但不公开。现有开源方案要么不开放数据、要么数据质量不足以达到前沿水平。

OpenSeeker 的核心洞察是：数据质量远比数据数量和训练方法复杂度重要。用 11.7k 精心合成的样本 + 最简单的 SFT，就能超越用 147k 样本训练的 MiroThinker 和用 CPT+SFT+RL 三阶段训练的通义 DeepResearch。

为什么这个想法 work？

两个核心技术创新确保了数据质量：

基于事实的可控 QA 合成：不是让 LLM 凭空编造问题，而是从真实的 Web 图结构中”逆向工程”多跳推理路径。问题天然需要多步搜索才能回答，因为它们就是从多个互连网页的实体关系中构造出来的。
去噪轨迹合成：训练时给模型看原始噪声（完整网页内容），但标签来自看了干净总结的教师模型。这迫使学生模型学会”透过噪声看本质”——一种在实际搜索中至关重要的能力。

方法详解

整体架构

Web 语料库 (68GB EN + 9GB ZH)
    ↓
[Phase 1: QA 合成]
随机采样种子页面 → 图扩展 → 实体提取
    → 问题生成 → 实体模糊化 → 双标准过滤
    → (question, answer) 对
    ↓
[Phase 2: 轨迹合成]
教师模型（看去噪总结）生成推理+动作
    → 学生训练数据（配原始噪声上下文）
    ↓
[Phase 3: 训练]
Qwen3-30B-A3B-Thinking + SFT
    → OpenSeeker

关键技术组件

组件 1: 基于事实的可控 QA 合成

图扩展（Graph Expansion）： 从随机种子页面出发，沿超链接扩展到 k 个连接节点，形成局部依赖子图。

实体提取（Entity Extraction）： 识别种子页面的中心主题，提取与之相关的关键实体，压缩为结构化的实体子图。去除文本噪声，保留逻辑路径。

问题生成 + 实体模糊化（关键创新）：

生成器基于实体子图结构合成问题，强制要求答案必须跨越多条边——即多跳推理
用模糊化算子将具体实体替换为模糊描述（如”那位在 2024 年获得图灵奖的研究员”代替”Geoffrey Hinton”），阻止 Agent 通过关键词直接搜索到答案

双标准验证：

标准	条件	目的
难度	强模型无工具时答错	保证问题需要外部搜索
可解性	强模型有完整上下文时答对	保证推理路径逻辑完整

三大优势：事实扎根（基于真实 web 拓扑）、可扩展（TB 级 web 存档可用）、可控（调节子图大小控制难度）。

组件 2: 去噪轨迹合成

核心机制： 教师/学生不对称上下文

阶段	看到的上下文	说明
教师（合成时）	历史摘要 + 最近一步原始结果	干净上下文 → 生成高质量推理和动作
学生（训练时）	完整原始历史	噪声上下文 → 被迫学习去噪能力

滚动窗口协议： 每一步决策后，前一步的原始工具返回被压缩为摘要，只保留最近一步的完整原始信息。这在保留近期信号的同时，持续过滤长期噪声。

训练策略

项目	详情
基模型	Qwen3-30B-A3B-Thinking-2507（30B 参数，3B 激活）
训练方法	纯 SFT（无 RL、无 CPT）
训练数据	10.3k 英文 + 1.4k 中文 = 11.7k 样本
上下文窗口	256k
最大工具调用	200 次
训练运行	单次，无超参调优，无启发式过滤

实验结果

主实验

模型	训练方法	BrowseComp	BC-ZH	xbench	WideSearch
GPT-5-High	?	54.9	63.0	-	-
OpenAI Deep Research	?	51.5	42.9	-	-
DeepSeek-V3.2-671B	?	51.4	65.0	-	-
Tongyi DeepResearch	CPT+SFT+RL	43.4	46.7	75.0	-
WebSailor-V2-30B	SFT+RL	35.3	44.1	73.7	-
OpenSeeker-v1-30B	SFT	29.5	48.4	74.0	59.4
DeepDive-32B	SFT+RL	15.3	29.7	51.8	-
MiroThinker-32B-v0.1	SFT+RL	13.0	17.0	-	-

关键发现：

在 BrowseComp-ZH 上超越通义 DeepResearch（48.4 vs 46.7）。这极为显著——通义用了 CPT+SFT+RL 三阶段训练，OpenSeeker 只用了 SFT。
数据质量 >> 数据数量：MiroThinker 用了 147k 样本（比 OpenSeeker 多 12 倍），但 BrowseComp-ZH 只有 17.0 vs 48.4。
纯 SFT 的开源 SOTA：在所有仅用 SFT 训练的 30B 模型中，OpenSeeker 在全部四个基准上表现最佳。
中文数据虽少但极精：仅 1.4k 中文样本，但平均每条轨迹 46.35 次工具调用、76.1k token，远超 BrowseComp-ZH 基准本身的难度。

复现评估

维度	评分(1-5)	详细说明
数据可得性	⭐⭐⭐⭐⭐	完整训练数据集开源——这正是本文最大的贡献
代码可得性	⭐⭐⭐⭐⭐	模型权重 + 合成流水线代码均开源
算力需求	⭐⭐⭐	Qwen3-30B-A3B SFT 需要多卡 GPU，但单次训练成本可控
工程复杂度	⭐⭐⭐	QA 合成需要 Web 语料库和 LLM 调用，但流水线文档清晰
预期收益	⭐⭐⭐⭐⭐	直接可用于构建搜索 Agent，或作为改进基线

批判性分析

局限性

论文自述：

仅训练一次，未探索数据过滤和超参优化
英文数据难度尚未更新到最新标准
资源有限，未能在更大规模数据上验证

我们额外发现的问题：

BrowseComp 上与工业水平仍有差距：29.5% vs GPT-5-High 的 54.9%，差距仍然明显。中文的成功可能部分归因于中文 Web 搜索的特殊性。
SFT 的天花板：纯 SFT 能否达到 RL 训练的上限？WebSailor-V2 的 SFT 版（28.3）远低于 SFT+RL 版（44.1），说明 RL 仍有显著加成。OpenSeeker 的 SFT 结果已经很强，但加上 RL 可能还有大幅提升空间。
工具调用数的可持续性：中文数据平均 46 次工具调用、76k token——这意味着每个训练样本的推理成本极高。规模化合成可能面临成本挑战。

独立观察

纯学术团队的胜利：上海交大团队在没有产业资源的情况下实现前沿水平，核心杠杆是方法创新而非算力堆砌。这对学术界是极大的鼓舞。
数据质量的启示：11.7k >> 147k 的结论对整个 AI 训练领域都有启发——精心设计的少量数据可能比海量低质数据更有效。
去噪轨迹训练的通用性：教师看干净数据、学生学噪声数据的不对称训练范式不局限于搜索。它可以应用于任何需要在噪声环境中决策的 Agent 任务。
开源的战略意义：OpenSeeker 的完全开源（数据+模型+流水线）可能催生一波搜索 Agent 的社区改进。历史表明，全开源的”LLaMA 时刻”往往能加速整个方向的发展。