OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
原文链接:https://arxiv.org/abs/2603.15594 作者:Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen 机构:上海交通大学 发布日期:2026-03-19
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 纯学术团队用 11.7k 合成样本 + 纯 SFT 训练出超越多个工业级搜索 Agent 的全开源模型 |
| 大白话版 | 搜索 Agent 一直是大公司的专利——有数据但不公开。上海交大团队自己造了一万多条高质量训练数据,只用最简单的训练方法(SFT),就让 30B 模型在多个搜索基准上超越了阿里通义 DeepResearch(后者用了 CPT+SFT+RL 三阶段训练) |
| 核心数字 | • BrowseComp 29.5%(开源 SOTA,vs DeepDive 15.3%)• BrowseComp-ZH 48.4%(超越通义 DeepResearch 46.7%)• 仅 11.7k 训练样本 • 单次训练运行、无超参调优 |
| 评级 | B+ — 重要的开源贡献。数据合成方法精巧,结果令人信服,且完全开源 |
| 代码 | 模型权重 + 完整训练数据集均开源 |
| 关键词 | Search Agent, Open Source, Data Synthesis, Denoised Trajectory, Web Graph, BrowseComp, SFT |
核心 Insight
搜索 Agent 领域存在一个巨大的”数据护城河”:OpenAI、Google、Kimi 等公司拥有高质量训练数据但不公开。现有开源方案要么不开放数据、要么数据质量不足以达到前沿水平。
OpenSeeker 的核心洞察是:数据质量远比数据数量和训练方法复杂度重要。用 11.7k 精心合成的样本 + 最简单的 SFT,就能超越用 147k 样本训练的 MiroThinker 和用 CPT+SFT+RL 三阶段训练的通义 DeepResearch。
为什么这个想法 work?
两个核心技术创新确保了数据质量:
-
基于事实的可控 QA 合成:不是让 LLM 凭空编造问题,而是从真实的 Web 图结构中”逆向工程”多跳推理路径。问题天然需要多步搜索才能回答,因为它们就是从多个互连网页的实体关系中构造出来的。
-
去噪轨迹合成:训练时给模型看原始噪声(完整网页内容),但标签来自看了干净总结的教师模型。这迫使学生模型学会”透过噪声看本质”——一种在实际搜索中至关重要的能力。
方法详解
整体架构
Web 语料库 (68GB EN + 9GB ZH)
↓
[Phase 1: QA 合成]
随机采样种子页面 → 图扩展 → 实体提取
→ 问题生成 → 实体模糊化 → 双标准过滤
→ (question, answer) 对
↓
[Phase 2: 轨迹合成]
教师模型(看去噪总结)生成推理+动作
→ 学生训练数据(配原始噪声上下文)
↓
[Phase 3: 训练]
Qwen3-30B-A3B-Thinking + SFT
→ OpenSeeker
关键技术组件
组件 1: 基于事实的可控 QA 合成
图扩展(Graph Expansion): 从随机种子页面出发,沿超链接扩展到 k 个连接节点,形成局部依赖子图。
实体提取(Entity Extraction): 识别种子页面的中心主题,提取与之相关的关键实体,压缩为结构化的实体子图。去除文本噪声,保留逻辑路径。
问题生成 + 实体模糊化(关键创新):
- 生成器基于实体子图结构合成问题,强制要求答案必须跨越多条边——即多跳推理
- 用模糊化算子将具体实体替换为模糊描述(如”那位在 2024 年获得图灵奖的研究员”代替”Geoffrey Hinton”),阻止 Agent 通过关键词直接搜索到答案
双标准验证:
| 标准 | 条件 | 目的 |
|---|---|---|
| 难度 | 强模型无工具时答错 | 保证问题需要外部搜索 |
| 可解性 | 强模型有完整上下文时答对 | 保证推理路径逻辑完整 |
三大优势:事实扎根(基于真实 web 拓扑)、可扩展(TB 级 web 存档可用)、可控(调节子图大小控制难度)。
组件 2: 去噪轨迹合成
核心机制: 教师/学生不对称上下文
| 阶段 | 看到的上下文 | 说明 |
|---|---|---|
| 教师(合成时) | 历史摘要 + 最近一步原始结果 | 干净上下文 → 生成高质量推理和动作 |
| 学生(训练时) | 完整原始历史 | 噪声上下文 → 被迫学习去噪能力 |
滚动窗口协议: 每一步决策后,前一步的原始工具返回被压缩为摘要,只保留最近一步的完整原始信息。这在保留近期信号的同时,持续过滤长期噪声。
训练策略
| 项目 | 详情 |
|---|---|
| 基模型 | Qwen3-30B-A3B-Thinking-2507(30B 参数,3B 激活) |
| 训练方法 | 纯 SFT(无 RL、无 CPT) |
| 训练数据 | 10.3k 英文 + 1.4k 中文 = 11.7k 样本 |
| 上下文窗口 | 256k |
| 最大工具调用 | 200 次 |
| 训练运行 | 单次,无超参调优,无启发式过滤 |
实验结果
主实验
| 模型 | 训练方法 | BrowseComp | BC-ZH | xbench | WideSearch |
|---|---|---|---|---|---|
| GPT-5-High | ? | 54.9 | 63.0 | - | - |
| OpenAI Deep Research | ? | 51.5 | 42.9 | - | - |
| DeepSeek-V3.2-671B | ? | 51.4 | 65.0 | - | - |
| Tongyi DeepResearch | CPT+SFT+RL | 43.4 | 46.7 | 75.0 | - |
| WebSailor-V2-30B | SFT+RL | 35.3 | 44.1 | 73.7 | - |
| OpenSeeker-v1-30B | SFT | 29.5 | 48.4 | 74.0 | 59.4 |
| DeepDive-32B | SFT+RL | 15.3 | 29.7 | 51.8 | - |
| MiroThinker-32B-v0.1 | SFT+RL | 13.0 | 17.0 | - | - |
关键发现:
-
在 BrowseComp-ZH 上超越通义 DeepResearch(48.4 vs 46.7)。这极为显著——通义用了 CPT+SFT+RL 三阶段训练,OpenSeeker 只用了 SFT。
-
数据质量 >> 数据数量:MiroThinker 用了 147k 样本(比 OpenSeeker 多 12 倍),但 BrowseComp-ZH 只有 17.0 vs 48.4。
-
纯 SFT 的开源 SOTA:在所有仅用 SFT 训练的 30B 模型中,OpenSeeker 在全部四个基准上表现最佳。
-
中文数据虽少但极精:仅 1.4k 中文样本,但平均每条轨迹 46.35 次工具调用、76.1k token,远超 BrowseComp-ZH 基准本身的难度。
复现评估
| 维度 | 评分(1-5) | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐⭐⭐⭐ | 完整训练数据集开源——这正是本文最大的贡献 |
| 代码可得性 | ⭐⭐⭐⭐⭐ | 模型权重 + 合成流水线代码均开源 |
| 算力需求 | ⭐⭐⭐ | Qwen3-30B-A3B SFT 需要多卡 GPU,但单次训练成本可控 |
| 工程复杂度 | ⭐⭐⭐ | QA 合成需要 Web 语料库和 LLM 调用,但流水线文档清晰 |
| 预期收益 | ⭐⭐⭐⭐⭐ | 直接可用于构建搜索 Agent,或作为改进基线 |
批判性分析
局限性
论文自述:
- 仅训练一次,未探索数据过滤和超参优化
- 英文数据难度尚未更新到最新标准
- 资源有限,未能在更大规模数据上验证
我们额外发现的问题:
-
BrowseComp 上与工业水平仍有差距:29.5% vs GPT-5-High 的 54.9%,差距仍然明显。中文的成功可能部分归因于中文 Web 搜索的特殊性。
-
SFT 的天花板:纯 SFT 能否达到 RL 训练的上限?WebSailor-V2 的 SFT 版(28.3)远低于 SFT+RL 版(44.1),说明 RL 仍有显著加成。OpenSeeker 的 SFT 结果已经很强,但加上 RL 可能还有大幅提升空间。
-
工具调用数的可持续性:中文数据平均 46 次工具调用、76k token——这意味着每个训练样本的推理成本极高。规模化合成可能面临成本挑战。
独立观察
-
纯学术团队的胜利:上海交大团队在没有产业资源的情况下实现前沿水平,核心杠杆是方法创新而非算力堆砌。这对学术界是极大的鼓舞。
-
数据质量的启示:11.7k >> 147k 的结论对整个 AI 训练领域都有启发——精心设计的少量数据可能比海量低质数据更有效。
-
去噪轨迹训练的通用性:教师看干净数据、学生学噪声数据的不对称训练范式不局限于搜索。它可以应用于任何需要在噪声环境中决策的 Agent 任务。
-
开源的战略意义:OpenSeeker 的完全开源(数据+模型+流水线)可能催生一波搜索 Agent 的社区改进。历史表明,全开源的”LLaMA 时刻”往往能加速整个方向的发展。