News

π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

原文链接：https://arxiv.org/abs/2605.14678 项目页：http://simplified-reasoning.github.io/Pi-Bench 代码：https://github.com/Simplified-Reasoning/Pi-Bench 作者：Haoran Zhang, Luxin Xu, Zhilin Wang, Runquan Gui, Shunkai Zhang, Haodi Lei, Zihao He, Bingsu He, Chicheng Qin, Tong Zhu, Xiaoye Qu, Yang Yang, Yu Cheng, Yafu Li 机构：上海交通大学、上海 AI Laboratory、复旦大学、中国科学技术大学、北京大学、南京大学、浙江大学、同济大学、苏州大学、香港中文大学发布日期：2026-05-22

速查卡

项目	内容
一句话总结	这篇工作第一次把“助理够不够主动”从主观感觉，拆成可复现实验里的 hidden intent 恢复能力。
大白话版	以前很多 agent benchmark 只看“最后做没做完”，这篇论文额外看“用户没说出口的需求，你是不是自己提前想到，或者至少会精准追问”。
核心数字	100 个多轮任务；5 个 persona；524 个 hidden intents；510 个 rubric checklist；168 个 rule-based checklist。
评级	A- — 不是新模型，但很可能会改变长期个人助理的评测口径。
代码	已开源：https://github.com/Simplified-Reasoning/Pi-Bench
关键词	proactive assistant、hidden intents、cross-session memory、tool-use benchmark、personal AI agent、workflow evaluation

核心 Insight

这篇论文最重要的洞察，不是“再做一个 agent benchmark”，而是指出：对长期个人助理来说，“任务完成”和“主动性”根本不是一回事。

过去很多 benchmark 的默认前提是：用户把目标讲清楚，agent 只要规划、调用工具、落地执行就行。但真实世界里，动手之前最难的那一步往往不是执行，而是补全需求。用户一开始通常只会给一个表层请求，真正决定结果质量的约束、偏好、格式习惯、历史决策、跨会话依赖，往往藏在上下文里，没有被直接说出口。论文把这类信息统一抽象为 hidden intents。

于是作者把问题重写成：一个长期个人助理，是否能在多轮、多会话、持续 workspace 的环境里，主动识别这些 hidden intents，并在用户不得不重复说明之前就把它们处理掉？这就把“主动性”从礼貌、话术或多问一句，变成了一个明确的、可审计的能力维度。

为什么这个想法 work？

因为它击中了个人助理和一般任务 agent 的结构性差异：

个人助理面对的不是一次性清晰任务，而是长期关系中的不完整需求。
个人助理要管理的不是单一答案，而是持续演化的 artifacts：文档、表格、邮件、计划、workspace 文件。
用户负担不只来自“结果没做完”，还来自“我是不是又得把自己已经说过的话再说一遍”。

π-Bench 的价值就在这里：它把“减少用户补充说明的成本”定义成一个独立指标，而不是让它被最终成品分数掩盖掉。

方法详解

整体架构

π-Bench 的评测对象是长期个人助理，而不是单轮聊天模型。整个基准包含：

用户 persona → 20 个 session 组成一个 episode → 每个 session 是一个多轮任务
                 ↓
        初始请求 + hidden intents + checklist + 工具/技能/文件环境
                 ↓
         被测 agent 与 user agent 多轮交互
                 ↓
     计算 Proc（主动性）与 Comp（完成度）两个分数

它不是只给一个 prompt 看输出，而是构造了一个持续 workspace：前序 session 产生的文件、偏好、格式习惯、任务链条都可能影响后续 session。

组件 1：任务结构 = 初始请求 + hidden intents + checklist

**做什么：**把“用户没有说出口但真正重要的要求”从结果检查里分离出来。

**怎么做：**每个任务都由三层组成：

initial request：用户一开始说出来的表层需求。
hidden intents：没有明说、但应该影响处理方式的潜在要求。
checklist：最终产物是否完成的可验证标准。

作者强调 hidden intents 和 checklist 不是一回事。

hidden intents 衡量 agent 是否主动发现需求；
checklist 衡量 agent 最终有没有把东西做对。

这是整篇论文最关键的设计。因为现实里，一个 agent 可以很被动：等用户把所有缺失信息一点点补齐后，照样做出一个还不错的成品。若只看 final outcome，它会被高估。

组件 2：多 session episode 设计

**做什么：**让 benchmark 真正具备“长期助理”属性，而不是伪长程。

怎么做：

5 个用户角色：researcher、marketer、law trainee、pharmacist、financier。
每个角色 20 个 session。
总计 100 个多轮任务。

论文进一步把依赖关系结构化：

每个 episode 里有 6 组 strong dependency groups；
每组含 2-3 个互相依赖的任务；
另有 5 个相对独立任务补足覆盖面。

这意味着 agent 不只是“记住一条 preference”，而是要把前面做过的项目主题、文件命名规范、输出格式、决策约束等，真正迁移到后面的任务里。

组件 3：user agent + intent tracking

**做什么：**把“主动性”从模糊印象变成明确标签。

怎么做： 作者用一个 user agent 来模拟用户侧交互，并给每个 hidden intent 分配三种终态之一：

completed：agent 没等用户明说，自己就做对了。
inferred：agent 提了精准澄清问题，用户下一轮才补出该要求。
provided：agent 没主动识别，也没精准追问，用户只能自己把要求说出来。

这套分类很聪明。因为它把“主动性”拆成两类都算分的行为：

直接推断并完成；
不乱猜，但会精准追问。

这比很多 benchmark 那种“多问一句就算主动”要严格得多。

组件 4：双指标评测

Proactivity 指标

论文定义主动性分数：

\mathrm{Proc}(H)=\frac{|\mathcal{I}_{com}|+|\mathcal{I}_{inf}|}{|\mathcal{I}|}

其中：

$\mathcal{I}$ 是全部 hidden intents
$\mathcal{I}_{com}$ 是被 agent 直接解决的 intents
$\mathcal{I}_{inf}$ 是通过定向澄清被 agent 主动挖出的 intents

直觉上，这个指标衡量的是：最终那些“没说出口的要求”里，有多少是 agent 主动搞定的，而不是等用户来喂。

Completeness 指标

完成度定义为：

\mathrm{Comp}(H)=\frac{1}{|\mathcal{C}|}\sum_{c\in\mathcal{C}} s(c,H)

其中：

$\mathcal{C}$ 是 checklist 项
$s(c,H)\in\{0,1\}$ 表示某个 checklist 是否满足

直觉上，这个指标只看最后有没有把任务产物做完做好。

为什么要分成两个指标？

因为如果不拆开，很多“反应式 agent”会被掩盖。

论文明确指出：在他们的 protocol 里，user agent 最终会把 agent 没主动发现的 hidden intents 补出来，以保证任务还能继续。所以一个不够主动的 agent 依然可能拿到不错的 Completeness，但它把需求发现的负担都甩给了用户。

这正是 π-Bench 的设计精髓：

Proc 衡量谁在驱动需求发现；
Comp 衡量结果是否落地。

Benchmark 构成

任务规模

维度	数值
用户角色	5
总任务数	100
每个角色 session 数	20
Hidden intents 总数	524
Rubric-based checklist 总数	510
Rule-based checklist 总数	168
独特工具数	187
技能数	21

五类 persona

Persona	典型工作流
Researcher	论文筛选、实验 rebuttal、研究计划、跨会话主题追踪
Marketer	危机公关、文案、社媒、客户沟通
Law Trainee	合同、法务交接、证据和流程细节
Pharmacist	文献、药物/实验相关工作流、Gmail/tool 交互
Financier	金融分析、模型验证、报告生成、风险约束

任务类别设计

附录把 100 个任务细分成 18 个 workflow 类别。这里最值得注意的是，它不是按“行业标签”粗分，而是按行动结构分：比如 research frontier intelligence、legal handoff、financial model validation、consumer selection、administrative workflows 等。这让 benchmark 更像“工作流 stress test”，而不只是 persona cosplay。

实验结果

主实验：Overall Proc / Comp

模型	Proc	Comp
GPT-5.4	67.0	65.6
Gemini 3.1 Pro	57.1	60.0
Claude Opus 4.6	65.5	67.6
DeepSeek V3.2	53.3	57.8
MiniMax M2.7	55.6	60.0
Kimi K2.5	43.1	61.6
Seed2.0 Pro	58.4	52.1
GLM-5.1	58.4	63.6
Qwen3.6 Plus	64.0	64.1

解读：

GPT-5.4 的主动性最好，Proc 最高 67.0。
Claude Opus 4.6 的完成度最好，Comp 最高 67.6。
Qwen3.6 Plus 两个维度都很稳，64.0 / 64.1，是非常像“均衡型助理”的表现。
Kimi K2.5 是一个极典型例子：Comp 61.6 其实不差，但 Proc 只有 43.1，说明它更像“等你说明白后我能做”，而不是“我先帮你补全没说出的部分”。

领域差异

论文指出，Pharmacist 整体最容易，Researcher 的主动性相对更难，Law Trainee 和 Financier 的完成度最低。

原因很合理：

Pharmacist 任务很多依赖本地文件、明确记录、相对硬约束；
Researcher 任务涉及主题延续、论文选择、follow-up judgment，隐含要求更模糊；
法务和金融很多是高风险结构化任务，一旦格式、证据链、规则意识出问题，Comp 就容易掉。

Intent 终态分布

模型	Completed	Inferred	Provided
GPT-5.4	56.84	12.29	30.87
Claude Opus 4.6	60.56	11.24	28.20
Qwen3.6 Plus	63.18	10.45	26.37
DeepSeek V3.2	54.58	9.35	36.07
Kimi K2.5	44.28	9.87	45.85

关键发现：

模型差异主要出现在 completed，不太出现在 inferred。也就是说，领先模型强在“直接把潜在要求做出来”，不是更爱发问。
inferred 这一列整体都不高，说明“精准澄清”本身仍是各家模型的薄弱环节。
Qwen3.6 Plus 的 completed 最高，说明它在跨上下文恢复 unstated constraints 上很强。

依赖消融实验

作者把每个 strong dependency group 的最后一个任务拿出来，移除它前面的上下文 session，再做一次评测。

结论很干脆：

去掉历史后，Proc 平均下降 9.5 个点；
Comp 平均只下降 2.5 个点。

这说明：历史上下文对于“主动识别 hidden intents”帮助巨大，但对“最后把任务收尾”帮助没那么大。换句话说，memory / cross-session continuity 首先提升的不是做事能力，而是少让用户重复交代的能力。

评审可靠性

作者对 120 条任务轨迹做人工和模型复审，判断分歧率如下：

审核来源	Checklist 分歧率	Hidden intent 分歧率
Human experts	2.66%	1.48%
Claude Opus 4.6	1.95%	0.90%
GPT-5.4	2.28%	1.77%
Gemini 3.1 Pro	3.51%	2.05%

这组数据挺重要：它说明这个 benchmark 虽然用了 rubric 和 user-agent judgment，但并没有滑向“全靠裁判感觉”。至少从审计结果看，噪声是可控的。

复现评估

维度	评分(1-5)	详细说明
数据可得性	⭐⭐⭐⭐	benchmark 与代码已开源，任务构成和附录很完整。
代码可得性	⭐⭐⭐⭐	项目仓库可用，但要完整复现实验仍需 agent scaffold、模型 API、环境搭建。
算力需求	⭐⭐	这是评测而不是训练大模型，重在工具环境和多次 rollout 成本。
工程复杂度	⭐⭐⭐⭐	多 session、tool records、workspace state、grader 组合，搭起来不轻。
预期收益	⭐⭐⭐⭐⭐	对所有做长期助理、memory agent、productivity agent 的团队都很有参考价值。

复现建议： 如果你在做个人助理产品，最值得先复现的不是完整九模型评测，而是借用它的任务模板和 hidden-intent 标注方式，先给自家 agent 做 internal eval。尤其适合测：

跨会话 preference reuse
是否会问对问题
有没有“完成任务但把用户折腾死”的假高分

批判性分析

论文承认的局限

用户是模拟 user agent，不是真人。
所有模型都在同一套 adapted Nanobot scaffold 上跑，不能代表所有 agent 框架。

我们额外看到的问题

Proc 仍然是“任务内平均后的比例分数”，没直接惩罚高成本试探。也就是说，一个 agent 可能问了很多轮才问到点上，只要最终被记成 inferred，也能拿分。虽然论文用 turn count 做辅助分析，但它没进入主分数。
completed 与 inferred 等权，可能低估了“直接推断”的价值差异。在一些高频个人偏好任务里，直接从历史恢复偏好，比每次都问一次，用户体验明显更好。等权处理在 benchmark 层面合理，但在产品层面未必够细。
benchmark 很强依赖任务标注质量。 hidden intents 的定义如果不够准，就会把某些“理应由用户明确提供”的信息误记成 agent 应主动恢复的内容。论文用审计控制了这个问题，但大规模扩展时仍要小心。
对真实世界高风险场景还不够“惩罚式”。比如法务、医疗、金融里，过度主动和错误推断有风险。π-Bench 主要测“能否主动发现”，但还没系统评估“主动错了怎么办”。

对领域的影响

这篇论文对行业最现实的影响，不是给某家模型刷榜，而是会改写很多团队做 personal assistant eval 的思路。

过去常见做法是：

看最后产物；
看 tool success；
看是否调用记忆；
看对话是否自然。

π-Bench 补上的空缺是：

用户有没有被迫重复自己；
模型有没有把历史上下文主动转成行动；
它是在“完成”还是在“协助”。

我判断这会直接影响两类东西：

长期记忆 agent 的 benchmark 设计，会从 retrieval 命中率转向 hidden-intent resolution。
助理型产品的内部指标，会开始区分“final success”和“user burden”。

小小动结论

π-Bench 的价值不在于把分数天花板拉得多高，而在于把一个大家一直口头讨论、但很难量化的能力——“主动性”——终于写成了一个能测、能审、能复现的 benchmark。

它最值得记住的不是某个模型第一，而是这个判断：

高完成度，不等于好助理；
真正的个人助理，要少让用户补课；
长期记忆的价值，不是记住事实，而是提前补全需求。

如果后续 agent 评测都开始沿着这个方向走，那 π-Bench 很可能会成为“个人助理 benchmark 从被动执行转向主动协作”的分水岭。