Esc
输入关键词开始搜索
News

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

原文链接:https://arxiv.org/abs/2605.10899 阅读说明:本文基于 arXiv HTML 全文与附录精读。 发布日期:2026-05-13

速查卡

项目内容
一句话总结RubricEM 把 deep research agent 的长链条任务拆成 Plan / Research / Review / Answer 四阶段,再用阶段化 judge 打分和反思记忆,把“无标准答案”的研究任务也变成可做 RL 的对象。
大白话版以前训练研究型 Agent,往往只能在最后看整篇报告像不像样;RubricEM 的做法是让 Agent 先自己列 rubric,再按阶段被检查,最后把失败经验沉淀成可复用的文字记忆。
核心数字RubricEM-8B 在 4 个长文研究 benchmark 上平均 55.5;比自家 SFT 版 49.2 提升 6.3 分;1400 步 RL 后超过 DR Tulu-8B RL 的 53.6;DRB 上 47.8,高于 OpenAI Deep Research 的 46.9。
评级B — 对研究型 Agent 训练范式很重要,但仍主要是方法论文,不是已被大规模工业验证的终局方案。
代码论文正文未明确给出可用开源仓库链接。
关键词deep research, long-horizon RL, rubric, SS-GRPO, meta-RL, reflection memory, agent training

核心 Insight

RubricEM 最重要的洞察,不是“又发明了一个奖励函数”,而是把 rubric 从最后的评分标准,提升成整个 agent 训练过程的公共接口。

过去 deep research agent 的难点有三个:

  1. 没有标准答案
    • 研究报告、行业分析、长文综述这类输出,很难像数学题一样 exact match
  2. 轨迹太长
    • 搜索、筛证、写作、修订跨越很多工具调用和思考步骤
  3. 经验很难复用
    • 一次失败的研究过程,往往只留下一份差报告,没有沉淀为以后可直接调用的策略

RubricEM 的解法是:

  • 先让 Agent 在 Plan 阶段自己写 rubric
  • 再把整个任务拆成 Plan / Research / Review / Answer 四阶段
  • 用 stage-specific rubrics 给每一阶段打分
  • 再训练一个 reflection meta-policy,把高质量“复盘”写入 rubric bank

这相当于把“导师式指导”编进了 RL 流程。以前只有最后一张卷子分数,现在变成了:先定评分标准、过程中分段检查、事后留下书面反思。对 deep research 这类非确定性工作流,这比单一终局奖励自然得多。

为什么这个想法 work?

因为研究型 Agent 的正确性本来就是分布式的:

  • Plan 好不好,不等于最终答案好不好,但通常会强影响后面
  • 搜索是否充分、证据是否覆盖 rubric,要早于写作阶段判断
  • Review 阶段如果没把证据映射回 rubric,最后报告很容易“看起来像在写,实际没答题”

也就是说,这类任务不是一个点问题,而是阶段依赖问题。RubricEM 正是把这种依赖结构显式建模了出来。

方法详解

整体架构

RubricEM 的训练框架可以概括成:

用户查询
  → Plan(分析需求 + 生成 rubric + 制定研究计划)
  → Research(工具调用 + 状态评估 + 动态改计划)
  → Review(按 rubric 对齐证据 + 写作提纲)
  → Answer(带引用的长文输出)

并行训练环:
  轨迹 → stagewise judge 打分 → SS-GRPO 更新任务策略
       → reflection meta-policy 生成复盘 → judge 评分 → rubric bank

其中有三个核心部件:

  1. rubric-guided structured scaffold
  2. Stage-Structured GRPO(SS-GRPO)
  3. shared-backbone reflection meta-policy + rubric bank

组件 1:rubric-guided structured scaffold

做什么

把长链条研究任务,从一个扁平自回归过程,变成四阶段结构化轨迹。

怎么做

论文定义四个阶段:

  1. Plan
    • <structured_plan> 中完成分析、rubric、研究计划
  2. Research
    • 工具调用后进入 <state_evaluation>,检查当前证据是否满足 rubric
  3. Review
    • <rubric_review><writing_plan>
  4. Answer
    • 输出最终带引用答案

论文给出的关键描述是:

  • Plan 中的 rubric 包括知识清单、分析标准、负约束
  • Research 中每次工具调用后都能依据 rubric 做状态评估
  • Review 强制把证据再映射回 rubric,避免草率落笔

为什么重要

这不是单纯格式模板。作者明确强调,这个 scaffold 是后续 RL 设计的前提:

  • 阶段边界定义了 SS-GRPO 的 credit unit
  • rubric-conditioned traces 定义了 rubric bank 的记忆格式

SFT 初始化

为了把这套结构先灌进模型,作者从 Gemini-3.1-Pro 蒸馏出 stage-structured 轨迹,教 Qwen3-8B 学会:

  • 先规划
  • 再搜
  • 再回看 rubric
  • 最后写答案

这一步其实是在给 RL 注入一个结构先验。

组件 2:Stage-Structured GRPO(SS-GRPO)

做什么

把终局奖励广播改成“阶段有自己的分数,但也能从下游成功中分到 credit”。

传统问题

普通 answer-only GRPO 的逻辑近似是:

  • 先跑完整条研究轨迹
  • 最后 judge 给一个总分
  • 这个总分再广播给所有 token

问题是:

  • 好的搜索可能被坏写作拖累
  • 好的规划可能因为中间执行失误拿不到 credit
  • judge 只能看到终局,很难知道错在 plan、research 还是 answer

RubricEM 的做法

对四个阶段分别打分:

  • Plan
  • Research
  • Review
  • Answer

然后用 causal stage-dependence matrix 把 credit 往前传:

  • 当前阶段保留自己的局部分数
  • 也接收后续阶段成功所带来的下游 credit

论文一句话说得很直白:terminal reward broadcast 只是它的特例。

直觉解释

如果把 deep research 看成接力赛:

  • 传统 RL 只在终点看总成绩
  • SS-GRPO 则给每一棒分别评分,同时承认前一棒为后一棒创造了条件

这比一刀切终局分数更接近真实因果结构。

组件 3:stagewise evolving-rubric judge

做什么

不是固定一份死 rubric,而是让 judge 持续维护一个会进化的 rubric buffer。

怎么做

  • judge 对同一 query 的多条轨迹做对比
  • 为每个阶段提出有区分度的 rubrics
  • 分阶段维护 buffer:Plan / Research / Review / Answer 各自独立
  • 高区分度 rubric 留下,失去区分力的 rubric 淘汰

为什么重要

因为 deep research 没有 oracle process reward。RubricEM 的办法不是找真值,而是让 judge 在“区分好坏轨迹”这件事上越来越会提问。

这其实是一种 judge-side curriculum:不是模型在学,judge 也在学怎么更有效地衡量模型。

组件 4:reflection meta-policy + rubric bank

做什么

把“这次失败教会了什么”也做成训练目标。

怎么做

  • task policy 与 reflection meta-policy 共享一个 backbone
  • 在任务轨迹跑完、judge 打分后,模型额外生成若干 reflection candidates
  • judge 基于已评分轨迹,给这些反思打分
  • 高质量 reflections 进入 rubric bank
  • 以后遇到相关问题,可做 cross-episode 或 within-episode retrieval

为什么这是 meta-RL

传统 meta-RL 讲的是“从过去经验里学会更快适应下一次任务”。RubricEM 的具体落点是:

  • 不学隐状态,不搞 support-query 重训练
  • 而是把过去失败/成功压缩成自然语言反思
  • 再把这些反思作为显式 textual memory 检索回来

这很符合 LLM agent 的物理现实:它们最天然的记忆载体,本来就是文本。

训练设置

  • 基础模型:Qwen3-8B
  • 教师模型:Gemini-3.1-Pro(用于结构化 SFT 蒸馏)
  • 搜索工具:Gemini-flash-grounded Google Search + Semantic Scholar
  • RL 步数:1400
  • judge 模型:Gemini Flash
  • 训练数据:含 SearchArena、OpenScholar 等公开 query 来源;RL 只用 long-form prompts

作者还给了一个很实在的工程细节:

  • rubric generation + scoring 阶段每步约 5 分钟
  • Rubric 生成和轨迹评分通过异步 Gemini API 并行执行

这说明方法不仅是算法创新,也明显依赖外部 judge 基础设施。

实验结果

主实验:长文研究 benchmark

论文在四个 benchmark 上比较:HealthBench、ResearchQA、DeepResearchBench(DRB)、ResearchRubrics。

方法HealthBenchResearchQADRBResearchRubricsAverage
DR Tulu-8B (SFT)38.168.539.038.446.0
DR Tulu-8B (RL, 1900 steps)50.274.343.446.453.6
Qwen3-8B + Our Search24.558.428.224.533.9
RubricEM-8B (SFT)39.071.843.042.849.2
RubricEM-8B (RL, 1400 steps)49.374.547.850.355.5

如何解读

  1. RubricEM-8B-RL 是开源同类模型里平均分最高
  2. 用 8B backbone 做到了 55.5,超过 DR Tulu-8B-RL 的 53.6
  3. 只用 1400 步 RL,就比 DR Tulu 的 1900 步更高
  4. DRB 上 47.8,高于 OpenAI Deep Research 的 46.9
  5. 它比自家 SFT 版从 49.2 提升到 55.5,说明 RL 不是摆设

短答搜索 benchmark 迁移

RubricEM 还测了 SimpleQA、2Wiki、WebWalker、DSQA:

方法SimpleQA2WikiWebWalkerDSQAAvg.
DR Tulu-8B (SFT)75.566.531.95.344.8
DR Tulu-8B (RL, 1900 steps)80.168.039.18.349.0
Qwen3-8B + Our Search84.061.542.615.250.8
RubricEM-8B (SFT)92.177.564.737.067.8
RubricEM-8B (RL, 1400 steps)92.378.870.053.073.5

这说明它虽然是为 long-form deep research 设计,但并没有把短答搜索能力训坏,反而显著迁移。

消融实验

论文在 600-step 预算下做了四种 recipe:

  • Baseline-RL:answer-only GRPO
  • SS-GRPO:仅做阶段化 credit
  • Meta-Policy:仅加 reflection meta-policy
  • RubricEM (Full):两者都加

结论很清晰:

  • SS-GRPO 单独有效
  • Meta-Policy 单独有效
  • Full 最强

这表明“阶段化奖励”和“经验复用”不是互相替代,而是互补关系。

复现评估

维度评分说明
数据可得性⭐⭐⭐query 来源有公开部分,但完整训练混合与 judge prompts 未必完全可复刻
代码可得性⭐⭐论文正文未给出现成可运行仓库,复现门槛高
算力需求⭐⭐任务策略 + judge 异步打分 + 长轨迹工具调用,整体非常重
工程复杂度不只是训模型,而是要复现搜索环境、judge 流水线、structured scaffold 与 memory 机制
预期收益⭐⭐⭐⭐对真实 research agent、情报 Agent、长链写作 Agent 都有直接启发

复现建议

如果真要复现,我建议分三层:

  1. 先只复现 structured scaffold + SFT
  2. 再接阶段化 judge,做 answer-only vs SS-GRPO 对比
  3. 最后再加 reflection meta-policy 和 rubric bank

不要一上来全量复刻,否则很容易死在 judge 基础设施与工程复杂度上。

批判性分析

论文承认或显露的局限

  1. judge 依赖很强

    • RubricEM 的核心信号来自 Gemini judge;judge 质量与成本是系统命门
  2. 工程外部性大

    • 它的收益部分来自强搜索后端与异步基础设施,而不只是算法本身
  3. 结构先验可能带来模板化风险

    • 四阶段 scaffold 提高了可训练性,但也可能约束 agent 的开放式探索风格

我额外看到的问题

  1. rubric 也是可错的

    • 如果 Plan 阶段自生成的 rubric 本身有盲点,后续整个训练就可能围着错误目标做优化
  2. judge 进化可能放大偏见

    • evolving-rubric judge 会持续积累“会区分”的标准,但不保证这些标准一定对应真实世界质量
  3. textual reflection 未必等于真正能力迁移

    • 有些 reflection 可能只是“看起来像反思”,但并不真的能改动作策略

独立观察

我认为 RubricEM 的真正价值,不在于 55.5 这个分数,而在于它明确了 deep research agent 训练的三个新默认项:

  1. 长任务应该有显式阶段结构
  2. 研究型任务的 credit assignment 不能只靠 terminal reward
  3. 经验复用最好以文本化、可检索、可对齐的形式存在

这三点对 Lighthouse 这类工作流尤其 relevant。因为 Lighthouse 本质就是:

  • 先定选题标准
  • 再搜索
  • 再回看是否满足标准
  • 再写与修

RubricEM 等于把这个过程写成了 RL 训练语言。

对领域的影响

短期看,RubricEM 会推动 open deep research agent 从“会搜”走向“会按研究流程搜”。

中期看,它可能逼着整个领域重新讨论:

  • judge 应该如何设计
  • 阶段化结构与自由探索如何平衡
  • textual memory 是否是最自然的 meta-RL 载体

长期看,如果这条路被证明可扩展,那么 deep research agent 的后训练范式很可能会从“结果导向 RL”升级成“结构化研究流程 RL”。这对新闻研究、法律分析、产业情报、长文综述,都不是小修小补,而是训练目标的重写。