News

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

原文链接：https://arxiv.org/abs/2605.10899 阅读说明：本文基于 arXiv HTML 全文与附录精读。发布日期：2026-05-13

速查卡

项目	内容
一句话总结	RubricEM 把 deep research agent 的长链条任务拆成 Plan / Research / Review / Answer 四阶段，再用阶段化 judge 打分和反思记忆，把“无标准答案”的研究任务也变成可做 RL 的对象。
大白话版	以前训练研究型 Agent，往往只能在最后看整篇报告像不像样；RubricEM 的做法是让 Agent 先自己列 rubric，再按阶段被检查，最后把失败经验沉淀成可复用的文字记忆。
核心数字	RubricEM-8B 在 4 个长文研究 benchmark 上平均 55.5；比自家 SFT 版 49.2 提升 6.3 分；1400 步 RL 后超过 DR Tulu-8B RL 的 53.6；DRB 上 47.8，高于 OpenAI Deep Research 的 46.9。
评级	B — 对研究型 Agent 训练范式很重要，但仍主要是方法论文，不是已被大规模工业验证的终局方案。
代码	论文正文未明确给出可用开源仓库链接。
关键词	deep research, long-horizon RL, rubric, SS-GRPO, meta-RL, reflection memory, agent training

核心 Insight

RubricEM 最重要的洞察，不是“又发明了一个奖励函数”，而是把 rubric 从最后的评分标准，提升成整个 agent 训练过程的公共接口。

过去 deep research agent 的难点有三个：

没有标准答案
- 研究报告、行业分析、长文综述这类输出，很难像数学题一样 exact match
轨迹太长
- 搜索、筛证、写作、修订跨越很多工具调用和思考步骤
经验很难复用
- 一次失败的研究过程，往往只留下一份差报告，没有沉淀为以后可直接调用的策略

RubricEM 的解法是：

先让 Agent 在 Plan 阶段自己写 rubric
再把整个任务拆成 Plan / Research / Review / Answer 四阶段
用 stage-specific rubrics 给每一阶段打分
再训练一个 reflection meta-policy，把高质量“复盘”写入 rubric bank

这相当于把“导师式指导”编进了 RL 流程。以前只有最后一张卷子分数，现在变成了：先定评分标准、过程中分段检查、事后留下书面反思。对 deep research 这类非确定性工作流，这比单一终局奖励自然得多。

为什么这个想法 work？

因为研究型 Agent 的正确性本来就是分布式的：

Plan 好不好，不等于最终答案好不好，但通常会强影响后面
搜索是否充分、证据是否覆盖 rubric，要早于写作阶段判断
Review 阶段如果没把证据映射回 rubric，最后报告很容易“看起来像在写，实际没答题”

也就是说，这类任务不是一个点问题，而是阶段依赖问题。RubricEM 正是把这种依赖结构显式建模了出来。

方法详解

整体架构

RubricEM 的训练框架可以概括成：

用户查询
  → Plan（分析需求 + 生成 rubric + 制定研究计划）
  → Research（工具调用 + 状态评估 + 动态改计划）
  → Review（按 rubric 对齐证据 + 写作提纲）
  → Answer（带引用的长文输出）

并行训练环：
  轨迹 → stagewise judge 打分 → SS-GRPO 更新任务策略
       → reflection meta-policy 生成复盘 → judge 评分 → rubric bank

其中有三个核心部件：

rubric-guided structured scaffold
Stage-Structured GRPO（SS-GRPO）
shared-backbone reflection meta-policy + rubric bank

组件 1：rubric-guided structured scaffold

做什么

把长链条研究任务，从一个扁平自回归过程，变成四阶段结构化轨迹。

怎么做

论文定义四个阶段：

Plan
- 在 <structured_plan> 中完成分析、rubric、研究计划
Research
- 工具调用后进入 <state_evaluation>，检查当前证据是否满足 rubric
Review
- 做 <rubric_review> 与 <writing_plan>
Answer
- 输出最终带引用答案

论文给出的关键描述是：

Plan 中的 rubric 包括知识清单、分析标准、负约束
Research 中每次工具调用后都能依据 rubric 做状态评估
Review 强制把证据再映射回 rubric，避免草率落笔

为什么重要

这不是单纯格式模板。作者明确强调，这个 scaffold 是后续 RL 设计的前提：

阶段边界定义了 SS-GRPO 的 credit unit
rubric-conditioned traces 定义了 rubric bank 的记忆格式

SFT 初始化

为了把这套结构先灌进模型，作者从 Gemini-3.1-Pro 蒸馏出 stage-structured 轨迹，教 Qwen3-8B 学会：

先规划
再搜
再回看 rubric
最后写答案

这一步其实是在给 RL 注入一个结构先验。

组件 2：Stage-Structured GRPO（SS-GRPO）

做什么

把终局奖励广播改成“阶段有自己的分数，但也能从下游成功中分到 credit”。

传统问题

普通 answer-only GRPO 的逻辑近似是：

先跑完整条研究轨迹
最后 judge 给一个总分
这个总分再广播给所有 token

问题是：

好的搜索可能被坏写作拖累
好的规划可能因为中间执行失误拿不到 credit
judge 只能看到终局，很难知道错在 plan、research 还是 answer

RubricEM 的做法

对四个阶段分别打分：

Plan
Research
Review
Answer

然后用 causal stage-dependence matrix 把 credit 往前传：

当前阶段保留自己的局部分数
也接收后续阶段成功所带来的下游 credit

论文一句话说得很直白：terminal reward broadcast 只是它的特例。

直觉解释

如果把 deep research 看成接力赛：

传统 RL 只在终点看总成绩
SS-GRPO 则给每一棒分别评分，同时承认前一棒为后一棒创造了条件

这比一刀切终局分数更接近真实因果结构。

组件 3：stagewise evolving-rubric judge

做什么

不是固定一份死 rubric，而是让 judge 持续维护一个会进化的 rubric buffer。

怎么做

judge 对同一 query 的多条轨迹做对比
为每个阶段提出有区分度的 rubrics
分阶段维护 buffer：Plan / Research / Review / Answer 各自独立
高区分度 rubric 留下，失去区分力的 rubric 淘汰

为什么重要

因为 deep research 没有 oracle process reward。RubricEM 的办法不是找真值，而是让 judge 在“区分好坏轨迹”这件事上越来越会提问。

这其实是一种 judge-side curriculum：不是模型在学，judge 也在学怎么更有效地衡量模型。

组件 4：reflection meta-policy + rubric bank

做什么

把“这次失败教会了什么”也做成训练目标。

怎么做

task policy 与 reflection meta-policy 共享一个 backbone
在任务轨迹跑完、judge 打分后，模型额外生成若干 reflection candidates
judge 基于已评分轨迹，给这些反思打分
高质量 reflections 进入 rubric bank
以后遇到相关问题，可做 cross-episode 或 within-episode retrieval

为什么这是 meta-RL

传统 meta-RL 讲的是“从过去经验里学会更快适应下一次任务”。RubricEM 的具体落点是：

不学隐状态，不搞 support-query 重训练
而是把过去失败/成功压缩成自然语言反思
再把这些反思作为显式 textual memory 检索回来

这很符合 LLM agent 的物理现实：它们最天然的记忆载体，本来就是文本。

训练设置

基础模型：Qwen3-8B
教师模型：Gemini-3.1-Pro（用于结构化 SFT 蒸馏）
搜索工具：Gemini-flash-grounded Google Search + Semantic Scholar
RL 步数：1400
judge 模型：Gemini Flash
训练数据：含 SearchArena、OpenScholar 等公开 query 来源；RL 只用 long-form prompts

作者还给了一个很实在的工程细节：

rubric generation + scoring 阶段每步约 5 分钟
Rubric 生成和轨迹评分通过异步 Gemini API 并行执行

这说明方法不仅是算法创新，也明显依赖外部 judge 基础设施。

实验结果

主实验：长文研究 benchmark

论文在四个 benchmark 上比较：HealthBench、ResearchQA、DeepResearchBench（DRB）、ResearchRubrics。

方法	HealthBench	ResearchQA	DRB	ResearchRubrics	Average
DR Tulu-8B (SFT)	38.1	68.5	39.0	38.4	46.0
DR Tulu-8B (RL, 1900 steps)	50.2	74.3	43.4	46.4	53.6
Qwen3-8B + Our Search	24.5	58.4	28.2	24.5	33.9
RubricEM-8B (SFT)	39.0	71.8	43.0	42.8	49.2
RubricEM-8B (RL, 1400 steps)	49.3	74.5	47.8	50.3	55.5

如何解读

RubricEM-8B-RL 是开源同类模型里平均分最高
用 8B backbone 做到了 55.5，超过 DR Tulu-8B-RL 的 53.6
只用 1400 步 RL，就比 DR Tulu 的 1900 步更高
DRB 上 47.8，高于 OpenAI Deep Research 的 46.9
它比自家 SFT 版从 49.2 提升到 55.5，说明 RL 不是摆设

短答搜索 benchmark 迁移

RubricEM 还测了 SimpleQA、2Wiki、WebWalker、DSQA：

方法	SimpleQA	2Wiki	WebWalker	DSQA	Avg.
DR Tulu-8B (SFT)	75.5	66.5	31.9	5.3	44.8
DR Tulu-8B (RL, 1900 steps)	80.1	68.0	39.1	8.3	49.0
Qwen3-8B + Our Search	84.0	61.5	42.6	15.2	50.8
RubricEM-8B (SFT)	92.1	77.5	64.7	37.0	67.8
RubricEM-8B (RL, 1400 steps)	92.3	78.8	70.0	53.0	73.5

这说明它虽然是为 long-form deep research 设计，但并没有把短答搜索能力训坏，反而显著迁移。

消融实验

论文在 600-step 预算下做了四种 recipe：

Baseline-RL：answer-only GRPO
SS-GRPO：仅做阶段化 credit
Meta-Policy：仅加 reflection meta-policy
RubricEM (Full)：两者都加

结论很清晰：

SS-GRPO 单独有效
Meta-Policy 单独有效
Full 最强

这表明“阶段化奖励”和“经验复用”不是互相替代，而是互补关系。

复现评估

维度	评分	说明
数据可得性	⭐⭐⭐	query 来源有公开部分，但完整训练混合与 judge prompts 未必完全可复刻
代码可得性	⭐⭐	论文正文未给出现成可运行仓库，复现门槛高
算力需求	⭐⭐	任务策略 + judge 异步打分 + 长轨迹工具调用，整体非常重
工程复杂度	⭐	不只是训模型，而是要复现搜索环境、judge 流水线、structured scaffold 与 memory 机制
预期收益	⭐⭐⭐⭐	对真实 research agent、情报 Agent、长链写作 Agent 都有直接启发

复现建议

如果真要复现，我建议分三层：

先只复现 structured scaffold + SFT
再接阶段化 judge，做 answer-only vs SS-GRPO 对比
最后再加 reflection meta-policy 和 rubric bank

不要一上来全量复刻，否则很容易死在 judge 基础设施与工程复杂度上。

批判性分析

论文承认或显露的局限

judge 依赖很强
- RubricEM 的核心信号来自 Gemini judge；judge 质量与成本是系统命门
工程外部性大
- 它的收益部分来自强搜索后端与异步基础设施，而不只是算法本身
结构先验可能带来模板化风险
- 四阶段 scaffold 提高了可训练性，但也可能约束 agent 的开放式探索风格

我额外看到的问题

rubric 也是可错的
- 如果 Plan 阶段自生成的 rubric 本身有盲点，后续整个训练就可能围着错误目标做优化
judge 进化可能放大偏见
- evolving-rubric judge 会持续积累“会区分”的标准，但不保证这些标准一定对应真实世界质量
textual reflection 未必等于真正能力迁移
- 有些 reflection 可能只是“看起来像反思”，但并不真的能改动作策略

独立观察

我认为 RubricEM 的真正价值，不在于 55.5 这个分数，而在于它明确了 deep research agent 训练的三个新默认项：

长任务应该有显式阶段结构
研究型任务的 credit assignment 不能只靠 terminal reward
经验复用最好以文本化、可检索、可对齐的形式存在

这三点对 Lighthouse 这类工作流尤其 relevant。因为 Lighthouse 本质就是：

先定选题标准
再搜索
再回看是否满足标准
再写与修

RubricEM 等于把这个过程写成了 RL 训练语言。

对领域的影响

短期看，RubricEM 会推动 open deep research agent 从“会搜”走向“会按研究流程搜”。

中期看，它可能逼着整个领域重新讨论：

judge 应该如何设计
阶段化结构与自由探索如何平衡
textual memory 是否是最自然的 meta-RL 载体

长期看，如果这条路被证明可扩展，那么 deep research agent 的后训练范式很可能会从“结果导向 RL”升级成“结构化研究流程 RL”。这对新闻研究、法律分析、产业情报、长文综述，都不是小修小补，而是训练目标的重写。