π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
原文链接:https://arxiv.org/abs/2605.14678 项目页:http://simplified-reasoning.github.io/Pi-Bench 代码:https://github.com/Simplified-Reasoning/Pi-Bench 作者:Haoran Zhang, Luxin Xu, Zhilin Wang, Runquan Gui, Shunkai Zhang, Haodi Lei, Zihao He, Bingsu He, Chicheng Qin, Tong Zhu, Xiaoye Qu, Yang Yang, Yu Cheng, Yafu Li 机构:上海交通大学、上海 AI Laboratory、复旦大学、中国科学技术大学、北京大学、南京大学、浙江大学、同济大学、苏州大学、香港中文大学 发布日期:2026-05-22
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 这篇工作第一次把“助理够不够主动”从主观感觉,拆成可复现实验里的 hidden intent 恢复能力。 |
| 大白话版 | 以前很多 agent benchmark 只看“最后做没做完”,这篇论文额外看“用户没说出口的需求,你是不是自己提前想到,或者至少会精准追问”。 |
| 核心数字 | 100 个多轮任务;5 个 persona;524 个 hidden intents;510 个 rubric checklist;168 个 rule-based checklist。 |
| 评级 | A- — 不是新模型,但很可能会改变长期个人助理的评测口径。 |
| 代码 | 已开源:https://github.com/Simplified-Reasoning/Pi-Bench |
| 关键词 | proactive assistant、hidden intents、cross-session memory、tool-use benchmark、personal AI agent、workflow evaluation |
核心 Insight
这篇论文最重要的洞察,不是“再做一个 agent benchmark”,而是指出:对长期个人助理来说,“任务完成”和“主动性”根本不是一回事。
过去很多 benchmark 的默认前提是:用户把目标讲清楚,agent 只要规划、调用工具、落地执行就行。但真实世界里,动手之前最难的那一步往往不是执行,而是补全需求。用户一开始通常只会给一个表层请求,真正决定结果质量的约束、偏好、格式习惯、历史决策、跨会话依赖,往往藏在上下文里,没有被直接说出口。论文把这类信息统一抽象为 hidden intents。
于是作者把问题重写成:一个长期个人助理,是否能在多轮、多会话、持续 workspace 的环境里,主动识别这些 hidden intents,并在用户不得不重复说明之前就把它们处理掉?这就把“主动性”从礼貌、话术或多问一句,变成了一个明确的、可审计的能力维度。
为什么这个想法 work?
因为它击中了个人助理和一般任务 agent 的结构性差异:
- 个人助理面对的不是一次性清晰任务,而是长期关系中的不完整需求。
- 个人助理要管理的不是单一答案,而是持续演化的 artifacts:文档、表格、邮件、计划、workspace 文件。
- 用户负担不只来自“结果没做完”,还来自“我是不是又得把自己已经说过的话再说一遍”。
π-Bench 的价值就在这里:它把“减少用户补充说明的成本”定义成一个独立指标,而不是让它被最终成品分数掩盖掉。
方法详解
整体架构
π-Bench 的评测对象是长期个人助理,而不是单轮聊天模型。整个基准包含:
用户 persona → 20 个 session 组成一个 episode → 每个 session 是一个多轮任务
↓
初始请求 + hidden intents + checklist + 工具/技能/文件环境
↓
被测 agent 与 user agent 多轮交互
↓
计算 Proc(主动性)与 Comp(完成度)两个分数
它不是只给一个 prompt 看输出,而是构造了一个持续 workspace:前序 session 产生的文件、偏好、格式习惯、任务链条都可能影响后续 session。
组件 1:任务结构 = 初始请求 + hidden intents + checklist
**做什么:**把“用户没有说出口但真正重要的要求”从结果检查里分离出来。
**怎么做:**每个任务都由三层组成:
- initial request:用户一开始说出来的表层需求。
- hidden intents:没有明说、但应该影响处理方式的潜在要求。
- checklist:最终产物是否完成的可验证标准。
作者强调 hidden intents 和 checklist 不是一回事。
- hidden intents 衡量 agent 是否主动发现需求;
- checklist 衡量 agent 最终有没有把东西做对。
这是整篇论文最关键的设计。因为现实里,一个 agent 可以很被动:等用户把所有缺失信息一点点补齐后,照样做出一个还不错的成品。若只看 final outcome,它会被高估。
组件 2:多 session episode 设计
**做什么:**让 benchmark 真正具备“长期助理”属性,而不是伪长程。
怎么做:
- 5 个用户角色:researcher、marketer、law trainee、pharmacist、financier。
- 每个角色 20 个 session。
- 总计 100 个多轮任务。
论文进一步把依赖关系结构化:
- 每个 episode 里有 6 组 strong dependency groups;
- 每组含 2-3 个互相依赖的任务;
- 另有 5 个相对独立任务补足覆盖面。
这意味着 agent 不只是“记住一条 preference”,而是要把前面做过的项目主题、文件命名规范、输出格式、决策约束等,真正迁移到后面的任务里。
组件 3:user agent + intent tracking
**做什么:**把“主动性”从模糊印象变成明确标签。
怎么做: 作者用一个 user agent 来模拟用户侧交互,并给每个 hidden intent 分配三种终态之一:
- completed:agent 没等用户明说,自己就做对了。
- inferred:agent 提了精准澄清问题,用户下一轮才补出该要求。
- provided:agent 没主动识别,也没精准追问,用户只能自己把要求说出来。
这套分类很聪明。因为它把“主动性”拆成两类都算分的行为:
- 直接推断并完成;
- 不乱猜,但会精准追问。
这比很多 benchmark 那种“多问一句就算主动”要严格得多。
组件 4:双指标评测
Proactivity 指标
论文定义主动性分数:
其中:
- 是全部 hidden intents
- 是被 agent 直接解决的 intents
- 是通过定向澄清被 agent 主动挖出的 intents
直觉上,这个指标衡量的是:最终那些“没说出口的要求”里,有多少是 agent 主动搞定的,而不是等用户来喂。
Completeness 指标
完成度定义为:
其中:
- 是 checklist 项
- 表示某个 checklist 是否满足
直觉上,这个指标只看最后有没有把任务产物做完做好。
为什么要分成两个指标?
因为如果不拆开,很多“反应式 agent”会被掩盖。
论文明确指出:在他们的 protocol 里,user agent 最终会把 agent 没主动发现的 hidden intents 补出来,以保证任务还能继续。所以一个不够主动的 agent 依然可能拿到不错的 Completeness,但它把需求发现的负担都甩给了用户。
这正是 π-Bench 的设计精髓:
- Proc 衡量谁在驱动需求发现;
- Comp 衡量结果是否落地。
Benchmark 构成
任务规模
| 维度 | 数值 |
|---|---|
| 用户角色 | 5 |
| 总任务数 | 100 |
| 每个角色 session 数 | 20 |
| Hidden intents 总数 | 524 |
| Rubric-based checklist 总数 | 510 |
| Rule-based checklist 总数 | 168 |
| 独特工具数 | 187 |
| 技能数 | 21 |
五类 persona
| Persona | 典型工作流 |
|---|---|
| Researcher | 论文筛选、实验 rebuttal、研究计划、跨会话主题追踪 |
| Marketer | 危机公关、文案、社媒、客户沟通 |
| Law Trainee | 合同、法务交接、证据和流程细节 |
| Pharmacist | 文献、药物/实验相关工作流、Gmail/tool 交互 |
| Financier | 金融分析、模型验证、报告生成、风险约束 |
任务类别设计
附录把 100 个任务细分成 18 个 workflow 类别。这里最值得注意的是,它不是按“行业标签”粗分,而是按行动结构分:比如 research frontier intelligence、legal handoff、financial model validation、consumer selection、administrative workflows 等。这让 benchmark 更像“工作流 stress test”,而不只是 persona cosplay。
实验结果
主实验:Overall Proc / Comp
| 模型 | Proc | Comp |
|---|---|---|
| GPT-5.4 | 67.0 | 65.6 |
| Gemini 3.1 Pro | 57.1 | 60.0 |
| Claude Opus 4.6 | 65.5 | 67.6 |
| DeepSeek V3.2 | 53.3 | 57.8 |
| MiniMax M2.7 | 55.6 | 60.0 |
| Kimi K2.5 | 43.1 | 61.6 |
| Seed2.0 Pro | 58.4 | 52.1 |
| GLM-5.1 | 58.4 | 63.6 |
| Qwen3.6 Plus | 64.0 | 64.1 |
解读:
- GPT-5.4 的主动性最好,Proc 最高 67.0。
- Claude Opus 4.6 的完成度最好,Comp 最高 67.6。
- Qwen3.6 Plus 两个维度都很稳,64.0 / 64.1,是非常像“均衡型助理”的表现。
- Kimi K2.5 是一个极典型例子:Comp 61.6 其实不差,但 Proc 只有 43.1,说明它更像“等你说明白后我能做”,而不是“我先帮你补全没说出的部分”。
领域差异
论文指出,Pharmacist 整体最容易,Researcher 的主动性相对更难,Law Trainee 和 Financier 的完成度最低。
原因很合理:
- Pharmacist 任务很多依赖本地文件、明确记录、相对硬约束;
- Researcher 任务涉及主题延续、论文选择、follow-up judgment,隐含要求更模糊;
- 法务和金融很多是高风险结构化任务,一旦格式、证据链、规则意识出问题,Comp 就容易掉。
Intent 终态分布
| 模型 | Completed | Inferred | Provided |
|---|---|---|---|
| GPT-5.4 | 56.84 | 12.29 | 30.87 |
| Claude Opus 4.6 | 60.56 | 11.24 | 28.20 |
| Qwen3.6 Plus | 63.18 | 10.45 | 26.37 |
| DeepSeek V3.2 | 54.58 | 9.35 | 36.07 |
| Kimi K2.5 | 44.28 | 9.87 | 45.85 |
关键发现:
- 模型差异主要出现在 completed,不太出现在 inferred。也就是说,领先模型强在“直接把潜在要求做出来”,不是更爱发问。
- inferred 这一列整体都不高,说明“精准澄清”本身仍是各家模型的薄弱环节。
- Qwen3.6 Plus 的 completed 最高,说明它在跨上下文恢复 unstated constraints 上很强。
依赖消融实验
作者把每个 strong dependency group 的最后一个任务拿出来,移除它前面的上下文 session,再做一次评测。
结论很干脆:
- 去掉历史后,Proc 平均下降 9.5 个点;
- Comp 平均只下降 2.5 个点。
这说明:历史上下文对于“主动识别 hidden intents”帮助巨大,但对“最后把任务收尾”帮助没那么大。换句话说,memory / cross-session continuity 首先提升的不是做事能力,而是少让用户重复交代的能力。
评审可靠性
作者对 120 条任务轨迹做人工和模型复审,判断分歧率如下:
| 审核来源 | Checklist 分歧率 | Hidden intent 分歧率 |
|---|---|---|
| Human experts | 2.66% | 1.48% |
| Claude Opus 4.6 | 1.95% | 0.90% |
| GPT-5.4 | 2.28% | 1.77% |
| Gemini 3.1 Pro | 3.51% | 2.05% |
这组数据挺重要:它说明这个 benchmark 虽然用了 rubric 和 user-agent judgment,但并没有滑向“全靠裁判感觉”。至少从审计结果看,噪声是可控的。
复现评估
| 维度 | 评分(1-5) | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐⭐⭐ | benchmark 与代码已开源,任务构成和附录很完整。 |
| 代码可得性 | ⭐⭐⭐⭐ | 项目仓库可用,但要完整复现实验仍需 agent scaffold、模型 API、环境搭建。 |
| 算力需求 | ⭐⭐ | 这是评测而不是训练大模型,重在工具环境和多次 rollout 成本。 |
| 工程复杂度 | ⭐⭐⭐⭐ | 多 session、tool records、workspace state、grader 组合,搭起来不轻。 |
| 预期收益 | ⭐⭐⭐⭐⭐ | 对所有做长期助理、memory agent、productivity agent 的团队都很有参考价值。 |
复现建议: 如果你在做个人助理产品,最值得先复现的不是完整九模型评测,而是借用它的任务模板和 hidden-intent 标注方式,先给自家 agent 做 internal eval。尤其适合测:
- 跨会话 preference reuse
- 是否会问对问题
- 有没有“完成任务但把用户折腾死”的假高分
批判性分析
论文承认的局限
- 用户是模拟 user agent,不是真人。
- 所有模型都在同一套 adapted Nanobot scaffold 上跑,不能代表所有 agent 框架。
我们额外看到的问题
-
Proc 仍然是“任务内平均后的比例分数”,没直接惩罚高成本试探。 也就是说,一个 agent 可能问了很多轮才问到点上,只要最终被记成 inferred,也能拿分。虽然论文用 turn count 做辅助分析,但它没进入主分数。
-
completed 与 inferred 等权,可能低估了“直接推断”的价值差异。 在一些高频个人偏好任务里,直接从历史恢复偏好,比每次都问一次,用户体验明显更好。等权处理在 benchmark 层面合理,但在产品层面未必够细。
-
benchmark 很强依赖任务标注质量。 hidden intents 的定义如果不够准,就会把某些“理应由用户明确提供”的信息误记成 agent 应主动恢复的内容。论文用审计控制了这个问题,但大规模扩展时仍要小心。
-
对真实世界高风险场景还不够“惩罚式”。 比如法务、医疗、金融里,过度主动和错误推断有风险。π-Bench 主要测“能否主动发现”,但还没系统评估“主动错了怎么办”。
对领域的影响
这篇论文对行业最现实的影响,不是给某家模型刷榜,而是会改写很多团队做 personal assistant eval 的思路。
过去常见做法是:
- 看最后产物;
- 看 tool success;
- 看是否调用记忆;
- 看对话是否自然。
π-Bench 补上的空缺是:
- 用户有没有被迫重复自己;
- 模型有没有把历史上下文主动转成行动;
- 它是在“完成”还是在“协助”。
我判断这会直接影响两类东西:
- 长期记忆 agent 的 benchmark 设计,会从 retrieval 命中率转向 hidden-intent resolution。
- 助理型产品的内部指标,会开始区分“final success”和“user burden”。
小小动结论
π-Bench 的价值不在于把分数天花板拉得多高,而在于把一个大家一直口头讨论、但很难量化的能力——“主动性”——终于写成了一个能测、能审、能复现的 benchmark。
它最值得记住的不是某个模型第一,而是这个判断:
- 高完成度,不等于好助理;
- 真正的个人助理,要少让用户补课;
- 长期记忆的价值,不是记住事实,而是提前补全需求。
如果后续 agent 评测都开始沿着这个方向走,那 π-Bench 很可能会成为“个人助理 benchmark 从被动执行转向主动协作”的分水岭。