Esc
输入关键词开始搜索
News

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

原文链接:https://arxiv.org/abs/2603.15594 作者:Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen 机构:上海交通大学 发布日期:2026-03-19

速查卡

项目内容
一句话总结纯学术团队用 11.7k 合成样本 + 纯 SFT 训练出超越多个工业级搜索 Agent 的全开源模型
大白话版搜索 Agent 一直是大公司的专利——有数据但不公开。上海交大团队自己造了一万多条高质量训练数据,只用最简单的训练方法(SFT),就让 30B 模型在多个搜索基准上超越了阿里通义 DeepResearch(后者用了 CPT+SFT+RL 三阶段训练)
核心数字• BrowseComp 29.5%(开源 SOTA,vs DeepDive 15.3%)• BrowseComp-ZH 48.4%(超越通义 DeepResearch 46.7%)• 仅 11.7k 训练样本 • 单次训练运行、无超参调优
评级B+ — 重要的开源贡献。数据合成方法精巧,结果令人信服,且完全开源
代码模型权重 + 完整训练数据集均开源
关键词Search Agent, Open Source, Data Synthesis, Denoised Trajectory, Web Graph, BrowseComp, SFT

核心 Insight

搜索 Agent 领域存在一个巨大的”数据护城河”:OpenAI、Google、Kimi 等公司拥有高质量训练数据但不公开。现有开源方案要么不开放数据、要么数据质量不足以达到前沿水平。

OpenSeeker 的核心洞察是:数据质量远比数据数量和训练方法复杂度重要。用 11.7k 精心合成的样本 + 最简单的 SFT,就能超越用 147k 样本训练的 MiroThinker 和用 CPT+SFT+RL 三阶段训练的通义 DeepResearch。

为什么这个想法 work?

两个核心技术创新确保了数据质量:

  1. 基于事实的可控 QA 合成:不是让 LLM 凭空编造问题,而是从真实的 Web 图结构中”逆向工程”多跳推理路径。问题天然需要多步搜索才能回答,因为它们就是从多个互连网页的实体关系中构造出来的。

  2. 去噪轨迹合成:训练时给模型看原始噪声(完整网页内容),但标签来自看了干净总结的教师模型。这迫使学生模型学会”透过噪声看本质”——一种在实际搜索中至关重要的能力。

方法详解

整体架构

Web 语料库 (68GB EN + 9GB ZH)

[Phase 1: QA 合成]
随机采样种子页面 → 图扩展 → 实体提取
    → 问题生成 → 实体模糊化 → 双标准过滤
    → (question, answer) 对

[Phase 2: 轨迹合成]
教师模型(看去噪总结)生成推理+动作
    → 学生训练数据(配原始噪声上下文)

[Phase 3: 训练]
Qwen3-30B-A3B-Thinking + SFT
    → OpenSeeker

关键技术组件

组件 1: 基于事实的可控 QA 合成

图扩展(Graph Expansion): 从随机种子页面出发,沿超链接扩展到 k 个连接节点,形成局部依赖子图。

实体提取(Entity Extraction): 识别种子页面的中心主题,提取与之相关的关键实体,压缩为结构化的实体子图。去除文本噪声,保留逻辑路径。

问题生成 + 实体模糊化(关键创新):

  • 生成器基于实体子图结构合成问题,强制要求答案必须跨越多条边——即多跳推理
  • 用模糊化算子将具体实体替换为模糊描述(如”那位在 2024 年获得图灵奖的研究员”代替”Geoffrey Hinton”),阻止 Agent 通过关键词直接搜索到答案

双标准验证:

标准条件目的
难度强模型无工具时答错保证问题需要外部搜索
可解性强模型有完整上下文时答对保证推理路径逻辑完整

三大优势:事实扎根(基于真实 web 拓扑)、可扩展(TB 级 web 存档可用)、可控(调节子图大小控制难度)。

组件 2: 去噪轨迹合成

核心机制: 教师/学生不对称上下文

阶段看到的上下文说明
教师(合成时)历史摘要 + 最近一步原始结果干净上下文 → 生成高质量推理和动作
学生(训练时)完整原始历史噪声上下文 → 被迫学习去噪能力

滚动窗口协议: 每一步决策后,前一步的原始工具返回被压缩为摘要,只保留最近一步的完整原始信息。这在保留近期信号的同时,持续过滤长期噪声。

训练策略

项目详情
基模型Qwen3-30B-A3B-Thinking-2507(30B 参数,3B 激活)
训练方法纯 SFT(无 RL、无 CPT)
训练数据10.3k 英文 + 1.4k 中文 = 11.7k 样本
上下文窗口256k
最大工具调用200 次
训练运行单次,无超参调优,无启发式过滤

实验结果

主实验

模型训练方法BrowseCompBC-ZHxbenchWideSearch
GPT-5-High?54.963.0--
OpenAI Deep Research?51.542.9--
DeepSeek-V3.2-671B?51.465.0--
Tongyi DeepResearchCPT+SFT+RL43.446.775.0-
WebSailor-V2-30BSFT+RL35.344.173.7-
OpenSeeker-v1-30BSFT29.548.474.059.4
DeepDive-32BSFT+RL15.329.751.8-
MiroThinker-32B-v0.1SFT+RL13.017.0--

关键发现:

  1. 在 BrowseComp-ZH 上超越通义 DeepResearch(48.4 vs 46.7)。这极为显著——通义用了 CPT+SFT+RL 三阶段训练,OpenSeeker 只用了 SFT。

  2. 数据质量 >> 数据数量:MiroThinker 用了 147k 样本(比 OpenSeeker 多 12 倍),但 BrowseComp-ZH 只有 17.0 vs 48.4。

  3. 纯 SFT 的开源 SOTA:在所有仅用 SFT 训练的 30B 模型中,OpenSeeker 在全部四个基准上表现最佳。

  4. 中文数据虽少但极精:仅 1.4k 中文样本,但平均每条轨迹 46.35 次工具调用、76.1k token,远超 BrowseComp-ZH 基准本身的难度。

复现评估

维度评分(1-5)详细说明
数据可得性⭐⭐⭐⭐⭐完整训练数据集开源——这正是本文最大的贡献
代码可得性⭐⭐⭐⭐⭐模型权重 + 合成流水线代码均开源
算力需求⭐⭐⭐Qwen3-30B-A3B SFT 需要多卡 GPU,但单次训练成本可控
工程复杂度⭐⭐⭐QA 合成需要 Web 语料库和 LLM 调用,但流水线文档清晰
预期收益⭐⭐⭐⭐⭐直接可用于构建搜索 Agent,或作为改进基线

批判性分析

局限性

论文自述:

  • 仅训练一次,未探索数据过滤和超参优化
  • 英文数据难度尚未更新到最新标准
  • 资源有限,未能在更大规模数据上验证

我们额外发现的问题:

  1. BrowseComp 上与工业水平仍有差距:29.5% vs GPT-5-High 的 54.9%,差距仍然明显。中文的成功可能部分归因于中文 Web 搜索的特殊性。

  2. SFT 的天花板:纯 SFT 能否达到 RL 训练的上限?WebSailor-V2 的 SFT 版(28.3)远低于 SFT+RL 版(44.1),说明 RL 仍有显著加成。OpenSeeker 的 SFT 结果已经很强,但加上 RL 可能还有大幅提升空间。

  3. 工具调用数的可持续性:中文数据平均 46 次工具调用、76k token——这意味着每个训练样本的推理成本极高。规模化合成可能面临成本挑战。

独立观察

  1. 纯学术团队的胜利:上海交大团队在没有产业资源的情况下实现前沿水平,核心杠杆是方法创新而非算力堆砌。这对学术界是极大的鼓舞。

  2. 数据质量的启示:11.7k >> 147k 的结论对整个 AI 训练领域都有启发——精心设计的少量数据可能比海量低质数据更有效。

  3. 去噪轨迹训练的通用性:教师看干净数据、学生学噪声数据的不对称训练范式不局限于搜索。它可以应用于任何需要在噪声环境中决策的 Agent 任务。

  4. 开源的战略意义:OpenSeeker 的完全开源(数据+模型+流水线)可能催生一波搜索 Agent 的社区改进。历史表明,全开源的”LLaMA 时刻”往往能加速整个方向的发展。