RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
原文链接:https://arxiv.org/abs/2605.10899 阅读说明:本文基于 arXiv HTML 全文与附录精读。 发布日期:2026-05-13
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | RubricEM 把 deep research agent 的长链条任务拆成 Plan / Research / Review / Answer 四阶段,再用阶段化 judge 打分和反思记忆,把“无标准答案”的研究任务也变成可做 RL 的对象。 |
| 大白话版 | 以前训练研究型 Agent,往往只能在最后看整篇报告像不像样;RubricEM 的做法是让 Agent 先自己列 rubric,再按阶段被检查,最后把失败经验沉淀成可复用的文字记忆。 |
| 核心数字 | RubricEM-8B 在 4 个长文研究 benchmark 上平均 55.5;比自家 SFT 版 49.2 提升 6.3 分;1400 步 RL 后超过 DR Tulu-8B RL 的 53.6;DRB 上 47.8,高于 OpenAI Deep Research 的 46.9。 |
| 评级 | B — 对研究型 Agent 训练范式很重要,但仍主要是方法论文,不是已被大规模工业验证的终局方案。 |
| 代码 | 论文正文未明确给出可用开源仓库链接。 |
| 关键词 | deep research, long-horizon RL, rubric, SS-GRPO, meta-RL, reflection memory, agent training |
核心 Insight
RubricEM 最重要的洞察,不是“又发明了一个奖励函数”,而是把 rubric 从最后的评分标准,提升成整个 agent 训练过程的公共接口。
过去 deep research agent 的难点有三个:
- 没有标准答案
- 研究报告、行业分析、长文综述这类输出,很难像数学题一样 exact match
- 轨迹太长
- 搜索、筛证、写作、修订跨越很多工具调用和思考步骤
- 经验很难复用
- 一次失败的研究过程,往往只留下一份差报告,没有沉淀为以后可直接调用的策略
RubricEM 的解法是:
- 先让 Agent 在 Plan 阶段自己写 rubric
- 再把整个任务拆成 Plan / Research / Review / Answer 四阶段
- 用 stage-specific rubrics 给每一阶段打分
- 再训练一个 reflection meta-policy,把高质量“复盘”写入 rubric bank
这相当于把“导师式指导”编进了 RL 流程。以前只有最后一张卷子分数,现在变成了:先定评分标准、过程中分段检查、事后留下书面反思。对 deep research 这类非确定性工作流,这比单一终局奖励自然得多。
为什么这个想法 work?
因为研究型 Agent 的正确性本来就是分布式的:
- Plan 好不好,不等于最终答案好不好,但通常会强影响后面
- 搜索是否充分、证据是否覆盖 rubric,要早于写作阶段判断
- Review 阶段如果没把证据映射回 rubric,最后报告很容易“看起来像在写,实际没答题”
也就是说,这类任务不是一个点问题,而是阶段依赖问题。RubricEM 正是把这种依赖结构显式建模了出来。
方法详解
整体架构
RubricEM 的训练框架可以概括成:
用户查询
→ Plan(分析需求 + 生成 rubric + 制定研究计划)
→ Research(工具调用 + 状态评估 + 动态改计划)
→ Review(按 rubric 对齐证据 + 写作提纲)
→ Answer(带引用的长文输出)
并行训练环:
轨迹 → stagewise judge 打分 → SS-GRPO 更新任务策略
→ reflection meta-policy 生成复盘 → judge 评分 → rubric bank
其中有三个核心部件:
- rubric-guided structured scaffold
- Stage-Structured GRPO(SS-GRPO)
- shared-backbone reflection meta-policy + rubric bank
组件 1:rubric-guided structured scaffold
做什么
把长链条研究任务,从一个扁平自回归过程,变成四阶段结构化轨迹。
怎么做
论文定义四个阶段:
- Plan
- 在
<structured_plan>中完成分析、rubric、研究计划
- 在
- Research
- 工具调用后进入
<state_evaluation>,检查当前证据是否满足 rubric
- 工具调用后进入
- Review
- 做
<rubric_review>与<writing_plan>
- 做
- Answer
- 输出最终带引用答案
论文给出的关键描述是:
- Plan 中的 rubric 包括知识清单、分析标准、负约束
- Research 中每次工具调用后都能依据 rubric 做状态评估
- Review 强制把证据再映射回 rubric,避免草率落笔
为什么重要
这不是单纯格式模板。作者明确强调,这个 scaffold 是后续 RL 设计的前提:
- 阶段边界定义了 SS-GRPO 的 credit unit
- rubric-conditioned traces 定义了 rubric bank 的记忆格式
SFT 初始化
为了把这套结构先灌进模型,作者从 Gemini-3.1-Pro 蒸馏出 stage-structured 轨迹,教 Qwen3-8B 学会:
- 先规划
- 再搜
- 再回看 rubric
- 最后写答案
这一步其实是在给 RL 注入一个结构先验。
组件 2:Stage-Structured GRPO(SS-GRPO)
做什么
把终局奖励广播改成“阶段有自己的分数,但也能从下游成功中分到 credit”。
传统问题
普通 answer-only GRPO 的逻辑近似是:
- 先跑完整条研究轨迹
- 最后 judge 给一个总分
- 这个总分再广播给所有 token
问题是:
- 好的搜索可能被坏写作拖累
- 好的规划可能因为中间执行失误拿不到 credit
- judge 只能看到终局,很难知道错在 plan、research 还是 answer
RubricEM 的做法
对四个阶段分别打分:
- Plan
- Research
- Review
- Answer
然后用 causal stage-dependence matrix 把 credit 往前传:
- 当前阶段保留自己的局部分数
- 也接收后续阶段成功所带来的下游 credit
论文一句话说得很直白:terminal reward broadcast 只是它的特例。
直觉解释
如果把 deep research 看成接力赛:
- 传统 RL 只在终点看总成绩
- SS-GRPO 则给每一棒分别评分,同时承认前一棒为后一棒创造了条件
这比一刀切终局分数更接近真实因果结构。
组件 3:stagewise evolving-rubric judge
做什么
不是固定一份死 rubric,而是让 judge 持续维护一个会进化的 rubric buffer。
怎么做
- judge 对同一 query 的多条轨迹做对比
- 为每个阶段提出有区分度的 rubrics
- 分阶段维护 buffer:Plan / Research / Review / Answer 各自独立
- 高区分度 rubric 留下,失去区分力的 rubric 淘汰
为什么重要
因为 deep research 没有 oracle process reward。RubricEM 的办法不是找真值,而是让 judge 在“区分好坏轨迹”这件事上越来越会提问。
这其实是一种 judge-side curriculum:不是模型在学,judge 也在学怎么更有效地衡量模型。
组件 4:reflection meta-policy + rubric bank
做什么
把“这次失败教会了什么”也做成训练目标。
怎么做
- task policy 与 reflection meta-policy 共享一个 backbone
- 在任务轨迹跑完、judge 打分后,模型额外生成若干 reflection candidates
- judge 基于已评分轨迹,给这些反思打分
- 高质量 reflections 进入 rubric bank
- 以后遇到相关问题,可做 cross-episode 或 within-episode retrieval
为什么这是 meta-RL
传统 meta-RL 讲的是“从过去经验里学会更快适应下一次任务”。RubricEM 的具体落点是:
- 不学隐状态,不搞 support-query 重训练
- 而是把过去失败/成功压缩成自然语言反思
- 再把这些反思作为显式 textual memory 检索回来
这很符合 LLM agent 的物理现实:它们最天然的记忆载体,本来就是文本。
训练设置
- 基础模型:Qwen3-8B
- 教师模型:Gemini-3.1-Pro(用于结构化 SFT 蒸馏)
- 搜索工具:Gemini-flash-grounded Google Search + Semantic Scholar
- RL 步数:1400
- judge 模型:Gemini Flash
- 训练数据:含 SearchArena、OpenScholar 等公开 query 来源;RL 只用 long-form prompts
作者还给了一个很实在的工程细节:
- rubric generation + scoring 阶段每步约 5 分钟
- Rubric 生成和轨迹评分通过异步 Gemini API 并行执行
这说明方法不仅是算法创新,也明显依赖外部 judge 基础设施。
实验结果
主实验:长文研究 benchmark
论文在四个 benchmark 上比较:HealthBench、ResearchQA、DeepResearchBench(DRB)、ResearchRubrics。
| 方法 | HealthBench | ResearchQA | DRB | ResearchRubrics | Average |
|---|---|---|---|---|---|
| DR Tulu-8B (SFT) | 38.1 | 68.5 | 39.0 | 38.4 | 46.0 |
| DR Tulu-8B (RL, 1900 steps) | 50.2 | 74.3 | 43.4 | 46.4 | 53.6 |
| Qwen3-8B + Our Search | 24.5 | 58.4 | 28.2 | 24.5 | 33.9 |
| RubricEM-8B (SFT) | 39.0 | 71.8 | 43.0 | 42.8 | 49.2 |
| RubricEM-8B (RL, 1400 steps) | 49.3 | 74.5 | 47.8 | 50.3 | 55.5 |
如何解读
- RubricEM-8B-RL 是开源同类模型里平均分最高
- 用 8B backbone 做到了 55.5,超过 DR Tulu-8B-RL 的 53.6
- 只用 1400 步 RL,就比 DR Tulu 的 1900 步更高
- DRB 上 47.8,高于 OpenAI Deep Research 的 46.9
- 它比自家 SFT 版从 49.2 提升到 55.5,说明 RL 不是摆设
短答搜索 benchmark 迁移
RubricEM 还测了 SimpleQA、2Wiki、WebWalker、DSQA:
| 方法 | SimpleQA | 2Wiki | WebWalker | DSQA | Avg. |
|---|---|---|---|---|---|
| DR Tulu-8B (SFT) | 75.5 | 66.5 | 31.9 | 5.3 | 44.8 |
| DR Tulu-8B (RL, 1900 steps) | 80.1 | 68.0 | 39.1 | 8.3 | 49.0 |
| Qwen3-8B + Our Search | 84.0 | 61.5 | 42.6 | 15.2 | 50.8 |
| RubricEM-8B (SFT) | 92.1 | 77.5 | 64.7 | 37.0 | 67.8 |
| RubricEM-8B (RL, 1400 steps) | 92.3 | 78.8 | 70.0 | 53.0 | 73.5 |
这说明它虽然是为 long-form deep research 设计,但并没有把短答搜索能力训坏,反而显著迁移。
消融实验
论文在 600-step 预算下做了四种 recipe:
- Baseline-RL:answer-only GRPO
- SS-GRPO:仅做阶段化 credit
- Meta-Policy:仅加 reflection meta-policy
- RubricEM (Full):两者都加
结论很清晰:
- SS-GRPO 单独有效
- Meta-Policy 单独有效
- Full 最强
这表明“阶段化奖励”和“经验复用”不是互相替代,而是互补关系。
复现评估
| 维度 | 评分 | 说明 |
|---|---|---|
| 数据可得性 | ⭐⭐⭐ | query 来源有公开部分,但完整训练混合与 judge prompts 未必完全可复刻 |
| 代码可得性 | ⭐⭐ | 论文正文未给出现成可运行仓库,复现门槛高 |
| 算力需求 | ⭐⭐ | 任务策略 + judge 异步打分 + 长轨迹工具调用,整体非常重 |
| 工程复杂度 | ⭐ | 不只是训模型,而是要复现搜索环境、judge 流水线、structured scaffold 与 memory 机制 |
| 预期收益 | ⭐⭐⭐⭐ | 对真实 research agent、情报 Agent、长链写作 Agent 都有直接启发 |
复现建议
如果真要复现,我建议分三层:
- 先只复现 structured scaffold + SFT
- 再接阶段化 judge,做 answer-only vs SS-GRPO 对比
- 最后再加 reflection meta-policy 和 rubric bank
不要一上来全量复刻,否则很容易死在 judge 基础设施与工程复杂度上。
批判性分析
论文承认或显露的局限
-
judge 依赖很强
- RubricEM 的核心信号来自 Gemini judge;judge 质量与成本是系统命门
-
工程外部性大
- 它的收益部分来自强搜索后端与异步基础设施,而不只是算法本身
-
结构先验可能带来模板化风险
- 四阶段 scaffold 提高了可训练性,但也可能约束 agent 的开放式探索风格
我额外看到的问题
-
rubric 也是可错的
- 如果 Plan 阶段自生成的 rubric 本身有盲点,后续整个训练就可能围着错误目标做优化
-
judge 进化可能放大偏见
- evolving-rubric judge 会持续积累“会区分”的标准,但不保证这些标准一定对应真实世界质量
-
textual reflection 未必等于真正能力迁移
- 有些 reflection 可能只是“看起来像反思”,但并不真的能改动作策略
独立观察
我认为 RubricEM 的真正价值,不在于 55.5 这个分数,而在于它明确了 deep research agent 训练的三个新默认项:
- 长任务应该有显式阶段结构
- 研究型任务的 credit assignment 不能只靠 terminal reward
- 经验复用最好以文本化、可检索、可对齐的形式存在
这三点对 Lighthouse 这类工作流尤其 relevant。因为 Lighthouse 本质就是:
- 先定选题标准
- 再搜索
- 再回看是否满足标准
- 再写与修
RubricEM 等于把这个过程写成了 RL 训练语言。
对领域的影响
短期看,RubricEM 会推动 open deep research agent 从“会搜”走向“会按研究流程搜”。
中期看,它可能逼着整个领域重新讨论:
- judge 应该如何设计
- 阶段化结构与自由探索如何平衡
- textual memory 是否是最自然的 meta-RL 载体
长期看,如果这条路被证明可扩展,那么 deep research agent 的后训练范式很可能会从“结果导向 RL”升级成“结构化研究流程 RL”。这对新闻研究、法律分析、产业情报、长文综述,都不是小修小补,而是训练目标的重写。