Esc
输入关键词开始搜索
News

π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

原文链接:https://arxiv.org/abs/2605.14678 项目页:http://simplified-reasoning.github.io/Pi-Bench 代码:https://github.com/Simplified-Reasoning/Pi-Bench 作者:Haoran Zhang, Luxin Xu, Zhilin Wang, Runquan Gui, Shunkai Zhang, Haodi Lei, Zihao He, Bingsu He, Chicheng Qin, Tong Zhu, Xiaoye Qu, Yang Yang, Yu Cheng, Yafu Li 机构:上海交通大学、上海 AI Laboratory、复旦大学、中国科学技术大学、北京大学、南京大学、浙江大学、同济大学、苏州大学、香港中文大学 发布日期:2026-05-22

速查卡

项目内容
一句话总结这篇工作第一次把“助理够不够主动”从主观感觉,拆成可复现实验里的 hidden intent 恢复能力。
大白话版以前很多 agent benchmark 只看“最后做没做完”,这篇论文额外看“用户没说出口的需求,你是不是自己提前想到,或者至少会精准追问”。
核心数字100 个多轮任务;5 个 persona;524 个 hidden intents;510 个 rubric checklist;168 个 rule-based checklist。
评级A- — 不是新模型,但很可能会改变长期个人助理的评测口径。
代码已开源:https://github.com/Simplified-Reasoning/Pi-Bench
关键词proactive assistant、hidden intents、cross-session memory、tool-use benchmark、personal AI agent、workflow evaluation

核心 Insight

这篇论文最重要的洞察,不是“再做一个 agent benchmark”,而是指出:对长期个人助理来说,“任务完成”和“主动性”根本不是一回事。

过去很多 benchmark 的默认前提是:用户把目标讲清楚,agent 只要规划、调用工具、落地执行就行。但真实世界里,动手之前最难的那一步往往不是执行,而是补全需求。用户一开始通常只会给一个表层请求,真正决定结果质量的约束、偏好、格式习惯、历史决策、跨会话依赖,往往藏在上下文里,没有被直接说出口。论文把这类信息统一抽象为 hidden intents。

于是作者把问题重写成:一个长期个人助理,是否能在多轮、多会话、持续 workspace 的环境里,主动识别这些 hidden intents,并在用户不得不重复说明之前就把它们处理掉?这就把“主动性”从礼貌、话术或多问一句,变成了一个明确的、可审计的能力维度。

为什么这个想法 work?

因为它击中了个人助理和一般任务 agent 的结构性差异:

  1. 个人助理面对的不是一次性清晰任务,而是长期关系中的不完整需求。
  2. 个人助理要管理的不是单一答案,而是持续演化的 artifacts:文档、表格、邮件、计划、workspace 文件。
  3. 用户负担不只来自“结果没做完”,还来自“我是不是又得把自己已经说过的话再说一遍”。

π-Bench 的价值就在这里:它把“减少用户补充说明的成本”定义成一个独立指标,而不是让它被最终成品分数掩盖掉。

方法详解

整体架构

π-Bench 的评测对象是长期个人助理,而不是单轮聊天模型。整个基准包含:

用户 persona → 20 个 session 组成一个 episode → 每个 session 是一个多轮任务

        初始请求 + hidden intents + checklist + 工具/技能/文件环境

         被测 agent 与 user agent 多轮交互

     计算 Proc(主动性)与 Comp(完成度)两个分数

它不是只给一个 prompt 看输出,而是构造了一个持续 workspace:前序 session 产生的文件、偏好、格式习惯、任务链条都可能影响后续 session。

组件 1:任务结构 = 初始请求 + hidden intents + checklist

**做什么:**把“用户没有说出口但真正重要的要求”从结果检查里分离出来。

**怎么做:**每个任务都由三层组成:

  1. initial request:用户一开始说出来的表层需求。
  2. hidden intents:没有明说、但应该影响处理方式的潜在要求。
  3. checklist:最终产物是否完成的可验证标准。

作者强调 hidden intents 和 checklist 不是一回事。

  • hidden intents 衡量 agent 是否主动发现需求;
  • checklist 衡量 agent 最终有没有把东西做对。

这是整篇论文最关键的设计。因为现实里,一个 agent 可以很被动:等用户把所有缺失信息一点点补齐后,照样做出一个还不错的成品。若只看 final outcome,它会被高估。

组件 2:多 session episode 设计

**做什么:**让 benchmark 真正具备“长期助理”属性,而不是伪长程。

怎么做:

  • 5 个用户角色:researcher、marketer、law trainee、pharmacist、financier。
  • 每个角色 20 个 session。
  • 总计 100 个多轮任务。

论文进一步把依赖关系结构化:

  • 每个 episode 里有 6 组 strong dependency groups;
  • 每组含 2-3 个互相依赖的任务;
  • 另有 5 个相对独立任务补足覆盖面。

这意味着 agent 不只是“记住一条 preference”,而是要把前面做过的项目主题、文件命名规范、输出格式、决策约束等,真正迁移到后面的任务里。

组件 3:user agent + intent tracking

**做什么:**把“主动性”从模糊印象变成明确标签。

怎么做: 作者用一个 user agent 来模拟用户侧交互,并给每个 hidden intent 分配三种终态之一:

  • completed:agent 没等用户明说,自己就做对了。
  • inferred:agent 提了精准澄清问题,用户下一轮才补出该要求。
  • provided:agent 没主动识别,也没精准追问,用户只能自己把要求说出来。

这套分类很聪明。因为它把“主动性”拆成两类都算分的行为:

  • 直接推断并完成;
  • 不乱猜,但会精准追问。

这比很多 benchmark 那种“多问一句就算主动”要严格得多。

组件 4:双指标评测

Proactivity 指标

论文定义主动性分数:

Proc(H)=Icom+IinfI\mathrm{Proc}(H)=\frac{|\mathcal{I}_{com}|+|\mathcal{I}_{inf}|}{|\mathcal{I}|}

其中:

  • I\mathcal{I} 是全部 hidden intents
  • Icom\mathcal{I}_{com} 是被 agent 直接解决的 intents
  • Iinf\mathcal{I}_{inf} 是通过定向澄清被 agent 主动挖出的 intents

直觉上,这个指标衡量的是:最终那些“没说出口的要求”里,有多少是 agent 主动搞定的,而不是等用户来喂。

Completeness 指标

完成度定义为:

Comp(H)=1CcCs(c,H)\mathrm{Comp}(H)=\frac{1}{|\mathcal{C}|}\sum_{c\in\mathcal{C}} s(c,H)

其中:

  • C\mathcal{C} 是 checklist 项
  • s(c,H){0,1}s(c,H)\in\{0,1\} 表示某个 checklist 是否满足

直觉上,这个指标只看最后有没有把任务产物做完做好。

为什么要分成两个指标?

因为如果不拆开,很多“反应式 agent”会被掩盖。

论文明确指出:在他们的 protocol 里,user agent 最终会把 agent 没主动发现的 hidden intents 补出来,以保证任务还能继续。所以一个不够主动的 agent 依然可能拿到不错的 Completeness,但它把需求发现的负担都甩给了用户。

这正是 π-Bench 的设计精髓:

  • Proc 衡量谁在驱动需求发现;
  • Comp 衡量结果是否落地。

Benchmark 构成

任务规模

维度数值
用户角色5
总任务数100
每个角色 session 数20
Hidden intents 总数524
Rubric-based checklist 总数510
Rule-based checklist 总数168
独特工具数187
技能数21

五类 persona

Persona典型工作流
Researcher论文筛选、实验 rebuttal、研究计划、跨会话主题追踪
Marketer危机公关、文案、社媒、客户沟通
Law Trainee合同、法务交接、证据和流程细节
Pharmacist文献、药物/实验相关工作流、Gmail/tool 交互
Financier金融分析、模型验证、报告生成、风险约束

任务类别设计

附录把 100 个任务细分成 18 个 workflow 类别。这里最值得注意的是,它不是按“行业标签”粗分,而是按行动结构分:比如 research frontier intelligence、legal handoff、financial model validation、consumer selection、administrative workflows 等。这让 benchmark 更像“工作流 stress test”,而不只是 persona cosplay。

实验结果

主实验:Overall Proc / Comp

模型ProcComp
GPT-5.467.065.6
Gemini 3.1 Pro57.160.0
Claude Opus 4.665.567.6
DeepSeek V3.253.357.8
MiniMax M2.755.660.0
Kimi K2.543.161.6
Seed2.0 Pro58.452.1
GLM-5.158.463.6
Qwen3.6 Plus64.064.1

解读:

  • GPT-5.4 的主动性最好,Proc 最高 67.0。
  • Claude Opus 4.6 的完成度最好,Comp 最高 67.6。
  • Qwen3.6 Plus 两个维度都很稳,64.0 / 64.1,是非常像“均衡型助理”的表现。
  • Kimi K2.5 是一个极典型例子:Comp 61.6 其实不差,但 Proc 只有 43.1,说明它更像“等你说明白后我能做”,而不是“我先帮你补全没说出的部分”。

领域差异

论文指出,Pharmacist 整体最容易,Researcher 的主动性相对更难,Law Trainee 和 Financier 的完成度最低。

原因很合理:

  • Pharmacist 任务很多依赖本地文件、明确记录、相对硬约束;
  • Researcher 任务涉及主题延续、论文选择、follow-up judgment,隐含要求更模糊;
  • 法务和金融很多是高风险结构化任务,一旦格式、证据链、规则意识出问题,Comp 就容易掉。

Intent 终态分布

模型CompletedInferredProvided
GPT-5.456.8412.2930.87
Claude Opus 4.660.5611.2428.20
Qwen3.6 Plus63.1810.4526.37
DeepSeek V3.254.589.3536.07
Kimi K2.544.289.8745.85

关键发现:

  1. 模型差异主要出现在 completed,不太出现在 inferred。也就是说,领先模型强在“直接把潜在要求做出来”,不是更爱发问。
  2. inferred 这一列整体都不高,说明“精准澄清”本身仍是各家模型的薄弱环节。
  3. Qwen3.6 Plus 的 completed 最高,说明它在跨上下文恢复 unstated constraints 上很强。

依赖消融实验

作者把每个 strong dependency group 的最后一个任务拿出来,移除它前面的上下文 session,再做一次评测。

结论很干脆:

  • 去掉历史后,Proc 平均下降 9.5 个点;
  • Comp 平均只下降 2.5 个点。

这说明:历史上下文对于“主动识别 hidden intents”帮助巨大,但对“最后把任务收尾”帮助没那么大。换句话说,memory / cross-session continuity 首先提升的不是做事能力,而是少让用户重复交代的能力。

评审可靠性

作者对 120 条任务轨迹做人工和模型复审,判断分歧率如下:

审核来源Checklist 分歧率Hidden intent 分歧率
Human experts2.66%1.48%
Claude Opus 4.61.95%0.90%
GPT-5.42.28%1.77%
Gemini 3.1 Pro3.51%2.05%

这组数据挺重要:它说明这个 benchmark 虽然用了 rubric 和 user-agent judgment,但并没有滑向“全靠裁判感觉”。至少从审计结果看,噪声是可控的。

复现评估

维度评分(1-5)详细说明
数据可得性⭐⭐⭐⭐benchmark 与代码已开源,任务构成和附录很完整。
代码可得性⭐⭐⭐⭐项目仓库可用,但要完整复现实验仍需 agent scaffold、模型 API、环境搭建。
算力需求⭐⭐这是评测而不是训练大模型,重在工具环境和多次 rollout 成本。
工程复杂度⭐⭐⭐⭐多 session、tool records、workspace state、grader 组合,搭起来不轻。
预期收益⭐⭐⭐⭐⭐对所有做长期助理、memory agent、productivity agent 的团队都很有参考价值。

复现建议: 如果你在做个人助理产品,最值得先复现的不是完整九模型评测,而是借用它的任务模板和 hidden-intent 标注方式,先给自家 agent 做 internal eval。尤其适合测:

  • 跨会话 preference reuse
  • 是否会问对问题
  • 有没有“完成任务但把用户折腾死”的假高分

批判性分析

论文承认的局限

  1. 用户是模拟 user agent,不是真人。
  2. 所有模型都在同一套 adapted Nanobot scaffold 上跑,不能代表所有 agent 框架。

我们额外看到的问题

  1. Proc 仍然是“任务内平均后的比例分数”,没直接惩罚高成本试探。 也就是说,一个 agent 可能问了很多轮才问到点上,只要最终被记成 inferred,也能拿分。虽然论文用 turn count 做辅助分析,但它没进入主分数。

  2. completed 与 inferred 等权,可能低估了“直接推断”的价值差异。 在一些高频个人偏好任务里,直接从历史恢复偏好,比每次都问一次,用户体验明显更好。等权处理在 benchmark 层面合理,但在产品层面未必够细。

  3. benchmark 很强依赖任务标注质量。 hidden intents 的定义如果不够准,就会把某些“理应由用户明确提供”的信息误记成 agent 应主动恢复的内容。论文用审计控制了这个问题,但大规模扩展时仍要小心。

  4. 对真实世界高风险场景还不够“惩罚式”。 比如法务、医疗、金融里,过度主动和错误推断有风险。π-Bench 主要测“能否主动发现”,但还没系统评估“主动错了怎么办”。

对领域的影响

这篇论文对行业最现实的影响,不是给某家模型刷榜,而是会改写很多团队做 personal assistant eval 的思路。

过去常见做法是:

  • 看最后产物;
  • 看 tool success;
  • 看是否调用记忆;
  • 看对话是否自然。

π-Bench 补上的空缺是:

  • 用户有没有被迫重复自己;
  • 模型有没有把历史上下文主动转成行动;
  • 它是在“完成”还是在“协助”。

我判断这会直接影响两类东西:

  1. 长期记忆 agent 的 benchmark 设计,会从 retrieval 命中率转向 hidden-intent resolution。
  2. 助理型产品的内部指标,会开始区分“final success”和“user burden”。

小小动结论

π-Bench 的价值不在于把分数天花板拉得多高,而在于把一个大家一直口头讨论、但很难量化的能力——“主动性”——终于写成了一个能测、能审、能复现的 benchmark。

它最值得记住的不是某个模型第一,而是这个判断:

  • 高完成度,不等于好助理;
  • 真正的个人助理,要少让用户补课;
  • 长期记忆的价值,不是记住事实,而是提前补全需求。

如果后续 agent 评测都开始沿着这个方向走,那 π-Bench 很可能会成为“个人助理 benchmark 从被动执行转向主动协作”的分水岭。