Agent

ExeVRM：用执行视频取代手工脚本，为 CUA 构建可扩展的奖励模型

论文：Video-Based Reward Modeling for Computer-Use Agents

作者：Jieyu Zhang, Huanxin Sheng, Taiwei Shi, Gupta Rahul, Yang Liu, Ranjay Krishna, Jian Kang, Jieyu Zhao 等（USC, UW, MBZUAI, Amazon AGI）

一句话：ExeVRM 证明了一个仅 8B 的视觉语言模型，只看 Agent 执行过程的视频（不需要内部推理 trace），就能比 GPT-5.2 更准确地判断 Agent 是否完成了用户指令——这为 CUA 的规模化评估和 RL 训练打开了大门。

一、这篇论文在解决什么问题

1.1 背景

Computer-Use Agent（CUA）正在快速发展——从 Claude 到 Qwen3-VL，各路模型都在学习操控桌面、浏览器和手机。但”怎么评估 Agent 做得好不好”一直是个瓶颈。

当前评估 CUA 的主流方式是 手写脚本检查最终状态（如 OSWorld 的 evaluation scripts）：每个任务写一段代码，检查文件是否创建、网页是否跳转到目标 URL、表格是否填对。这种方式有三个根本问题：

不可扩展：每增加一个任务就要写新脚本，无法覆盖开放域任务
只看结果不看过程：Agent 可能用了完全错误的路径”碰巧”到达正确状态
跨平台困难：Ubuntu/macOS/Windows/Android 各有不同的状态检查方式

另一种思路是用大模型做 Judge（如 GPT-5.2 直接看截图判断）。但截图评估要么太稀疏（只看最后一张），要么太昂贵（全程截图 token 量爆炸）。

1.2 核心问题

能否训练一个通用的奖励模型（Reward Model），仅通过观察 Agent 执行过程的视频来判断任务是否完成？ 进一步要求：

不依赖 Agent 内部的推理 trace 或 tool call 格式（method-agnostic）
跨操作系统和应用通用
能定位到”哪一步开始出错”（temporal attribution）

二、方法：怎么解决的

2.1 核心 Insight

执行视频是 CUA 评估的最佳信号载体。 为什么？因为视频是 Agent 的”外部行为记录”——不管 Agent 内部怎么推理、用什么格式调用工具，最终都要通过 GUI 操作来完成任务，而这些操作全部被视频捕获。这使得同一个奖励模型可以评估完全不同架构的 Agent（end-to-end 的 UI-TARS vs agentic 的 Claude 4.5）。

但视频评估有两个核心挑战：

冗余度极高：GUI 中大量区域（工具栏、背景、侧边栏）在整个过程中几乎不变，而关键信号（光标移动、文本编辑、对话框出现）只占很小的视觉区域
负样本稀缺：公开数据集（AgentNet, ScaleCUA）主要收集成功轨迹，失败案例很少且缺少标注

ExeVRM 用三个技术组件解决这些问题：ExeVR-53k 数据集 + 对抗性指令翻译 + 时空 Token 剪枝。

2.2 技术细节

组件一：ExeVR-53k 数据集

统一整合三个来源的数据：

来源	数据类型	规模	覆盖平台
AgentNet	人类演示轨迹	22,625 任务	Windows/macOS/Ubuntu
ScaleCUA	人机混合轨迹	大规模	Linux/macOS/Windows/Android/Web
OSWorld	30 种 Agent 的 rollout	361 任务 × 30 agents	Ubuntu 为主

关键处理：将所有轨迹统一转换为 step-level 视频表示——每个交互步骤提取一个关键帧（动作执行后的截图），按时间顺序拼接成 1 FPS 的紧凑视频。这个设计在”信息完整性”和”计算可管理性”之间取得了平衡。

组件二：对抗性指令翻译（Adversarial Instruction Translation）

核心思路借鉴了 NLP 中的 back-translation。给定一段成功的轨迹片段，用 GPT-5.2 生成一个 在同一界面上下文中合理但与该轨迹不匹配的指令。

具体流程：

graph LR
    A[成功轨迹片段] --> B[GPT-5.2 分析界面上下文]
    B --> C[生成不匹配指令]
    C --> D[标注首次不匹配的步骤索引]
    D --> E[人工审核]
    E --> F[高质量负样本 + 时间归因标签]

这个方法的巧妙之处：

负样本与正样本共享相同的界面上下文（hard negative），而非随机配对
同时产生 step-level 的时间归因标注（哪一步开始不对），可用于训练模型的错误定位能力
人工审核通过率 100%，质量可靠

数值例子： 假设一段轨迹是”在 Ubuntu 终端中创建文件 test.txt”。对抗翻译可能生成”删除文件 test.txt”——界面上下文完全匹配（同一个终端窗口），但指令语义完全相反。模型需要学会区分”创建”和”删除”这类细微但关键的差异。

组件三：时空 Token 剪枝（Spatiotemporal Token Pruning）

这是 ExeVRM 的技术核心，解决高分辨率长视频的计算瓶颈。

空间 Token 剪枝（STP）： 在每一帧内，构建 patch 特征的连通图——如果相邻 patch 的特征距离小于阈值 $\tau_s$ ，则连接一条边。用 Union-Find 找到所有连通分量，把面积超过 $\tau_{\text{large}}$ 的大连通分量（通常是背景、工具栏等大面积静态区域）整体移除。

数学描述：

$e^{(t)}_{(i,j)\leftrightarrow(i',j')} = \mathbb{1}\left[(i',j') \in \mathcal{N}(i,j) \land \|\mathbf{P}^{(t)}_{i,j} - \mathbf{P}^{(t)}_{i',j'}\|_2 < \tau_s\right]$

直觉：大面积颜色/纹理均匀的区域（如 macOS 的灰色背景、Windows 的任务栏）会形成大连通分量，被剪掉；而 UI 控件、文本框、按钮等小而多变的区域会保留。

时间 Token 剪枝（TTP）： 对于同一空间位置，维护一个”参考 token”（初始化为第一帧）。后续帧中，如果该位置的 token 与参考的余弦相似度超过 $\tau_t$ ，则剪掉（没变化）；否则保留并更新参考。

$\mathbf{M}_t(t,i) = \mathbb{1}\left[\text{sim}_{\text{cos}}(\mathbf{v}^{(\text{ref})}_i, \mathbf{v}^{(t)}_i) \leq \tau_t\right]$

直觉：工具栏在 20 帧中都不变→只保留第一帧的 token；但光标从 A 移动到 B→检测到变化，保留。

联合应用： 一个 token 只有在 STP 和 TTP 都判定保留时才保留： $\mathbf{M} = \mathbf{M}_s \land \mathbf{M}_t$ 。最终基于 Qwen3-VL 8B 进行微调，冻结视觉编码器和投影层，只训练 LLM 参数。

2.3 方法对比

方法	评估粒度	是否需要内部 trace	负样本来源	时间归因
OSWorld 脚本	最终状态	否	不适用	无
ORM (Outcome RM)	最终状态	是	被动收集	无
PRM (Process RM)	每步 O(n)	是	专家/规则	有
ExeVRM	视频整体	否	对抗翻译	有（tIoU）

三、实验结果

3.1 实验设置

评估基准：ExeVR-Bench — 覆盖 Ubuntu/macOS/Windows/Android 的跨平台评估集
基线模型： GPT-5.2, Gemini-3 Pro, Seed-2.0 Pro, Qwen3-VL (7B/32B/72B), InternVL3 (8B/38B/78B)
评估指标： Accuracy, Recall, Precision, F1, tIoU（temporal Intersection over Union，用于错误定位精度）
训练配置： 基于 Qwen3-VL 8B，冻结 ViT + 投影层，只训练 LLM 参数

3.2 主要结果

模型	准确率	召回率	精确率	F1
GPT-5.2	75.0%	66.5%	—	—
Gemini-3 Pro	—	—	—	—
Seed-2.0 Pro	80.3%	74.7%	—	—
Qwen3-VL 72B (zero-shot)	较低	较低	—	—
ExeVRM 8B	84.7%	87.7%	—	—

关键解读：

8B 模型超越了 GPT-5.2： ExeVRM 8B 的准确率比 GPT-5.2 高 9.7 个百分点，召回率高 21.2 个百分点——这说明专门的微调比通用大模型的 zero-shot 评估强得多
召回率 87.7% 是亮点： 对于奖励模型来说，高召回率意味着”能识别出大部分成功轨迹”，这对 RL 训练中的正样本利用率至关重要
跨平台一致性好： 在 Ubuntu、macOS、Windows、Android 上都有优势，不是只在特定平台上好
时间归因（tIoU）优于所有基线： 不仅判断对错，还能更准确地指出”从哪一步开始出错”

3.3 消融实验

论文的消融研究揭示了几个关键发现：

视频 vs 截图： 密集视频上下文显著优于稀疏截图评估——这验证了”过程比结果重要”
720p + STP+TTP vs 360p： 720p 输入配合时空剪枝在召回率上明显优于 360p，同时保持了可控的内存和延迟——高分辨率确实能捕获 360p 丢失的微妙 UI 变化
STP 和 TTP 的各自贡献： 两者都有正贡献，但联合使用效果最好——空间和时间冗余是不同维度的问题
对抗性负样本的效果： 相比随机配对负样本，对抗性翻译生成的 hard negative 显著提升了模型的辨别能力

四、复现与落地评估

4.1 复现难度评估

维度	评级	说明
代码开源	⚠️	论文未明确提到代码开源计划，但数据集 ExeVR-53k 预计会公开
数据可得性	✅	基于公开数据集（AgentNet, ScaleCUA, OSWorld）构建
算力需求	中	基于 8B 模型微调，冻结 ViT，实际训练参数量不大
依赖复杂度	中	需要 Qwen3-VL 基座、视频处理 pipeline、Union-Find 实现
复现总评	⭐⭐⭐⭐	方法清晰，算法伪代码完整，基座模型开源，主要门槛在数据处理

4.2 工业落地可行性

适用场景： CUA 的自动化质量评估、RL 训练的奖励信号、Agent benchmark 的评估器扩展
性能开销： 8B 模型推理在 A100 上可接受；关键瓶颈是视频预处理（关键帧提取 + token 剪枝）
集成难度： 需要标准化的视频采集 pipeline（屏幕录制→关键帧提取→1FPS 拼接），但这在大多数 Agent 框架中容易添加
风险点： 84.7% 准确率在评估场景足够，但作为 RL reward signal 可能需要更高——15% 的错误判断会引入训练噪声
落地总评： ⭐⭐⭐⭐

五、SOTA 对照矩阵

方法	核心思路	准确率	是否需要内部 trace	优势	劣势
ExeVRM 8B	视频奖励模型 + 时空剪枝	84.7%	❌	通用、跨平台、有时间归因	15% 错误率，长轨迹未充分测试
Seed-2.0 Pro	闭源大模型 zero-shot	80.3%	❌	无需训练	召回率低（74.7%）
GPT-5.2	闭源大模型 zero-shot	75.0%	❌	无需训练	准确率和召回率都不够高
GUI-critic-R1	RL 训练的 critique 模型	—	✅	推理能力强	依赖 Agent 内部 trace
VAGEN	Agentic reward modeling	—	✅	过程感知	依赖 Agent 内部 trace
OSWorld 脚本	手工评估脚本	~100%（在其覆盖范围内）	❌	精确	不可扩展，每任务需新脚本

ExeVRM 的位置：它是第一个将 CUA 评估从”手工脚本”或”通用大模型 zero-shot”推向”专用微调视频奖励模型”的工作。 不是增量改进，而是范式转换——从状态检查到过程观察。

六、讨论与局限

6.1 论文自身讨论的局限

当前仅在 ExeVR-Bench 上验证，需要更多独立评估
时空剪枝的超参数（ $\tau_s, \tau_t, \tau_{\text{large}}$ ）需要针对不同分辨率和应用场景调优
对抗性指令翻译依赖 GPT-5.2，引入了对闭源模型的依赖

6.2 我的额外观察

长轨迹衰减问题未充分讨论。 论文展示的主要是中等长度轨迹（5-20 步），但真实 CUA 任务（如”在 Photoshop 中完成一个复杂编辑流程”）可能需要 50+ 步。Token 剪枝能否在极长轨迹上保持判断精度？
对抗性负样本的覆盖面有限。 翻译出的负样本主要是”语义相反的指令”，但真实 Agent 的失败模式更多样——比如”方向正确但执行不完整”（只完成了 80% 的步骤）、“在错误的位置执行正确操作”等。这些微妙的失败模式是否被覆盖？
84.7% 作为 RL reward signal 的可靠性。 如果用 ExeVRM 作为 RL 训练的奖励信号，15.3% 的错误判断（特别是 false positive——把失败判为成功）会导致 reward hacking。论文未讨论这个关键风险。
与 PRM 的互补性。 ExeVRM 做的是 holistic video-level judgment，而 PRM 做 step-wise evaluation。两者不是替代关系——理想的评估系统应该同时有 ExeVRM 的全局视角和 PRM 的过程监督。论文未探讨组合使用的可能性。
视频压缩对微妙 UI 变化的影响。 1 FPS 关键帧提取 + token 剪枝是否会丢失”闪现的对话框”、“瞬间的错误提示”等转瞬即逝但关键的信号？

七、对我们的启示

谁应该关注这篇论文？

构建 CUA benchmark 或评估 pipeline 的研究者和工程师
用 RL 训练 CUA 的团队（需要 scalable reward signal）
做 Agent 可观测性和调试工具的创业者

核心 Takeaway：

视频是 CUA 评估的正确媒介。 不要再依赖手写脚本或 Agent 内部 trace——执行视频是唯一真正 method-agnostic 的信号
专用微调 >> 通用大模型 zero-shot。 8B 微调模型轻松超越 GPT-5.2，这个教训在很多垂直任务中都成立
时空 token 剪枝是可复用的技术。 STP+TTP 的设计不仅限于奖励模型，可以用于任何处理 GUI 视频的 VLM 场景
对抗性数据生成值得借鉴。 “在同一上下文中生成语义不匹配的指令”是一种通用的 hard negative 构造策略
评估和训练的统一。 ExeVRM 既可以用于评估，也可以作为 RL reward model——解决了 CUA 领域”评估和训练分离”的问题

实践建议：

如果你在做 CUA 开发，现在就开始记录 Agent 执行的屏幕视频（1 FPS 关键帧足够），为将来的奖励模型训练积累数据
在你的 Agent 评估 pipeline 中，先实现简单的帧去重（SSIM > 0.95 丢弃），这是 TTP 的简化版本
关注 ExeVR-53k 数据集的开源进展——它可能成为 CUA RL 训练的标准数据集

核心四要素

要素	内容
根本问题	CUA 评估依赖手写脚本或通用大模型 zero-shot，两者都无法同时实现可扩展性、跨平台通用性和过程感知。
切入视角	执行视频是 Agent 的”外部行为记录”，天然与 Agent 内部实现解耦，是唯一真正 method-agnostic 的评估信号——但视频中 95% 的 token 是冗余的。
关键方法	(1) 对抗性指令翻译生成 hard negative + 时间归因标注；(2) 空间 Union-Find + 时间余弦跟踪的联合 token 剪枝；(3) 在 53K 视频-任务-奖励三元组上微调 8B VLM。
核心发现	ExeVRM 8B 达到 84.7% 准确率 / 87.7% 召回率，跨四个操作系统一致超越 GPT-5.2（75.0%）和 Seed-2.0 Pro（80.3%），同时提供更精确的错误步骤定位。

方法公式化

ExeVRM = (执行视频统一表示 + 对抗性 hard negative) × 时空 token 剪枝 → 8B VLM 微调

最终双重总结

一句话总结（核心价值）： ExeVRM 通过将 CUA 轨迹统一为执行视频并设计时空 token 剪枝，证明了一个仅 8B 的微调视觉语言模型可以作为跨平台、与 Agent 架构无关的通用奖励评估器，准确率超越 GPT-5.2 近 10 个百分点。

一句话总结（大白话版）： 就像老师不需要看学生的草稿纸就能通过录像判断他考试有没有作弊一样，ExeVRM 不需要看 AI 助手”心里怎么想的”，只看它”屏幕上做了什么”就能判断任务有没有完成。

论文速查卡

项目	内容
标题	Video-Based Reward Modeling for Computer-Use Agents
作者	Jieyu Zhang 等，USC / UW / MBZUAI / Amazon AGI
链接	arXiv:2603.10178
发表	arXiv 预印本 (2026.03)
一句话总结	用执行视频作为 CUA 的通用评估信号，通过时空 token 剪枝和对抗性负样本训练 8B 奖励模型
大白话版	看 AI 助手的”操作录像”就能判断它干得好不好，不用看它”脑子里怎么想的”
核心数字	84.7% 准确率，87.7% 召回率，超越 GPT-5.2（75.0%）
复现评级	⭐⭐⭐⭐
落地评级	⭐⭐⭐⭐