News

ClawBench：真实网站上的 AI Agent 评测，最强模型成功率仅 33.3%

论文链接：https://arxiv.org/abs/2604.08523 来源：arXiv preprint 发布日期：2026-04-10 HuggingFace Papers：104 upvotes

速查卡

项目	内容
一句话总结	在 144 个真实生产环境网站上测试 AI Agent 日常任务能力，最强模型 Claude Sonnet 4.6 仅能完成 33.3% 的任务
大白话版	以前的 AI Agent 测评都是在”练习题”上考试（简化的模拟网站、读取任务），ClawBench 直接在真实网站上考”实操”（购物、预约、求职、注册），结果即使最强的 Claude Sonnet 4.6 也有约 2/3 的任务失败了
核心数字	144 个真实网站，153 项任务，15 个类别，8 个任务组，Claude Sonnet 4.6 成功率 33.3%
价值评级	B+ — 真实世界能力评估，揭示 Agent 研究与实际部署的关键鸿沟
适用场景	AI Agent 研究者、Web Agent 产品负责人、SOTA 能力评估、AI 产品化路径规划

研究背景

现有基准的根本局限

在 ClawBench 出现之前，Web Agent 评测领域的主流基准存在一个系统性偏差：它们都不在真实网站上测试。

基准	问题
WebArena	使用托管的网站副本（replicas），而非真实生产环境
Mind2Web	静态页面快照，无法反映动态网站的真实复杂性
OSWorld	桌面应用为主，Web 任务覆盖有限
WorkArena	ServiceNow 平台内部任务，单一平台

这些基准的共同问题：高度控制的测评环境消除了真实网站中的系统性难点，导致在基准上表现出色的模型，在真实部署中却屡屡失败。

开发者们发现这个现象有一个名字：“基准幻觉”（benchmark illusion）——模型在标准化评测上得到 65-75% 的高分，实际落地时成功率远低于此。

ClawBench 的设计出发点就是彻底打破这个幻觉：在真实的生产环境网站上，测试 AI Agent 完成真实人类日常任务的能力。

为什么是”写入型任务”（Write-Heavy）？

现有基准偏向于读取型任务（search、retrieve、find information），但现实中最有价值的 Agent 任务是写入型任务：

购买商品、预订酒店、申请职位
提交表单、完成注册、发起退款
创建账户、更改设置、进行预约

这些”状态改变型”任务不仅更难，而且评测本身有安全风险——你不能真的让 Agent 买下一堆东西或申请大量工作。这正是 ClawBench 必须解决的核心工程挑战。

技术架构

核心创新：轻量级拦截层

ClawBench 通过 Chrome Extension + CDP（Chrome DevTools Protocol） 构建了一个”安全沙盒中的真实环境”：

用户任务指令 → AI Agent 操作浏览器 → Chrome Extension 拦截最终提交
                                              ↓
                               阻止"确认购买/提交申请"请求到达服务器
                               但记录完整的请求体（表单字段、payload）
                               ↓
                            与人工标注的基准 payload 进行比对

关键设计点：

选择性拦截：只拦截”最终提交”操作（如点击”完成购买”），所有其他请求（页面导航、AJAX 加载、内容请求）正常通过
100% 拦截精度：在全部 153 个任务上实现了零漏拦截，没有一次真实提交意外触达服务器
无需修改网站：完全从客户端实现，真实网站不需要任何配合或改动
完整 payload 捕获：记录完整的 HTTP 请求体，包括所有表单字段，用于与基准 payload 精确比对

五层同步录制基础设施

每次 Agent 执行任务都会生成五个同步数据流：

层次	内容	用途
会话录制	完整视频（Xvfb 虚拟显示 + FFmpeg 编码）	可视化回放，人工 debug
动作截图	每个浏览器动作后的页面截图	步骤级视觉状态记录
HTTP 流量	完整请求日志（含 payload）	最终答案的核心评判依据
Agent 消息	推理轨迹和工具调用的结构化 JSON	分析 Agent 决策逻辑
浏览器动作	底层操作事件（点击、键盘、滚动）	细粒度操作轨迹

这五层数据的同步记录，使 ClawBench 不仅能判断”成功/失败”，还能做步骤级对齐分析（step-level alignment）——找到 Agent 在任务的哪个步骤开始偏离正确轨迹。

评测方式：Claude Code 子 Agent 作为评判者

最终的成功判断由 “Claude Code 子 Agent 充当评判者” 完成：

输入：任务指令 + 人工基准轨迹/payload + Agent 执行轨迹/payload
输出：二元判断（0/1）+ 每一步的对齐分析和判断理由
特点：每一个失败判断都有可追溯的步骤级理由，而非黑盒判断

数据集

规模与覆盖

维度	数量
总任务数	153
覆盖网站数	144（均为真实生产环境）
任务类别（细粒度）	15
任务组（高层级）	8
人工标注基准轨迹	153 条（每个任务都有）

8 个高层级任务组

组别	代表性任务类型
Daily	日常服务预约、餐厅订座、外卖下单
Work	求职申请、任务提交、工作流管理
Dev	开发工具注册、API 申请、代码平台操作
Social	社交平台注册、社区发帖、账号创建
Academic	学术系统注册、论文投稿、会议报名
Travel	机票/酒店预订、行程规划、交通查询
Pets	宠物服务预约、兽医预约、宠物用品购买
Finance	金融账户操作、转账、保险申请

任务标注流程

候选生成：标注者调研各平台，为真实用户场景实例化具体任务目标
多阶段筛选：独立核验去除需要付费订阅、地理限制或已下线的任务
拦截信号标注：人工专家为每个任务识别精确的 HTTP 端点、方法和 payload 模式
基准轨迹录制：人工在相同基础设施下完成每个任务，产生对比基准

评测结果

总体排名

排名	模型	成功率
1	Claude Sonnet 4.6	33.3%
2	GLM-5 †	24.2%
3	Gemini 3 Flash	19.0%
4	Claude Haiku 4.5	18.3%
5	GPT-5.4	6.5%
6	Gemini 3.1 Flash Lite	3.3%
7	Kimi K2.5	0.7%

（†GLM-5 为纯文本模型，不具备视觉能力）

第一个关键数字：最强模型 Claude Sonnet 4.6 的 33.3%——这意味着 153 项任务中约 102 项失败。

第二个关键数字：GPT-5.4 仅 6.5%，远低于直觉预期，排名第 5，落后 Claude Haiku 4.5（18.3%）。

Claude Sonnet 4.6 各任务组成功率

任务组	成功率
Finance	50.0%
Academic	50.0%
Daily	44.2%
Social	38.9%
Travel	23.1%
Work	19.0%
Pets	18.2%
Dev	11.1%

规律分析：

高成功率（≥40%）：Finance、Academic、Daily——这些领域的表单结构相对标准化，字段意义明确
中等成功率（20-40%）：Social、Travel——需要理解一定上下文，但流程相对清晰
低成功率（<20%）：Work、Pets、Dev——需要特定背景知识、复杂表单理解或多系统交互

与现有基准的对比鸿沟

这是 ClawBench 最有力的发现之一：

在 OSWorld、WebArena 等基准上得分 65-75% 的模型，在 ClawBench 上只有 33.3%（最强）到 0.7%（最弱） 的成功率。

这不是测量误差，而是能力鸿沟的系统性揭示：

能力测量	结果
结构化编码任务（SWE-bench）	80%+
合成 Web 任务（WebArena）	65-75%
真实网站任务（ClawBench）	6.5% - 33.3%

从结构化编码到真实 Web 任务，性能折损约 50-90%。这个折损来自于真实网站的系统性难点。

真实网站的系统性难点

AI Agent 在真实网站上面临的挑战

Cookie 同意弹窗：任何操作前都需要处理，且弹窗形式千变万化
动态 JavaScript 渲染：页面内容动态加载，截图时机选择复杂
CAPTCHA 与反爬机制：真实网站的主动防御让自动化操作受阻
账户状态依赖：很多任务需要预先的账户状态（已登录、已填写部分信息）
多步骤表单验证：实时验证字段（手机号格式、地址完整性），不满足条件就无法继续
隐式上下文：用户在真实场景中会带来历史上下文，纯粹的 Agent 没有这些背景

这些挑战在合成基准中都被人为消除了，因此基准成功 ≠ 真实世界成功。

GLM-5 的特殊表现

GLM-5 作为文本模型（无视觉能力），排名第二（24.2%）值得关注：

这说明在很多 Web 任务中，视觉理解（识别 UI 元素位置）并非最关键的能力
理解任务意图、填写正确的字段值、处理表单逻辑——这些文本推理能力在很多场景下是决定性的
这对 Web Agent 产品设计有启示：混合模式（文本主导 + 视觉辅助）可能比纯视觉模式更高效

GPT-5.4 仅 6.5% 的可能解释

GPT-5.4 的异常低分（相比 Claude Sonnet 4.6 差 5 倍以上）需要谨慎解读：

评估使用了”Claude Code 子 Agent 作为评判者”，可能存在对 Anthropic 模型的系统性偏差
GPT-5.4 的 Tool Use 格式或 Agent 行为模式与评判者的期望不匹配
评测版本和 API 参数设置可能有差异

论文作者是否充分控制了这些变量，需要进一步核查。

产品化含义

对 AI Agent 创业公司

直接含义：如果最强的 Foundation Model 只有 33.3% 的成功率，那么”AI 替代人工处理日常网页任务”的全自动化路线面临的不是微调问题，而是系统性能力缺口。

可行路径：

混合工作流：AI 处理结构化步骤，人工处理复杂/不确定情况（Human-in-the-Loop）
垂直专化：在 Finance（50%）或 Academic（50%）等高成功率领域深耕，而非追求通用 Web 自动化
任务过滤：先评估任务类型，只对成功率高的任务类型使用 AI Agent

对 Foundation Model 公司

改进方向：

动态内容处理：更强的”等待页面加载”策略，处理 AJAX 和 SPA 框架
弹窗/遮挡处理：系统性地识别并处理 Cookie 同意、广告弹窗等常见干扰
表单字段推理：理解复杂表单的字段语义和验证规则
多步骤状态管理：在长流程中维护上下文状态，不在中途丢失目标

批判性评估

研究的价值

填补评测空白：现有 Web Agent 基准的”真实性”缺失是公认问题，ClawBench 提供了目前最接近真实的评估
工程贡献：5 层录制基础设施 + CDP 拦截机制是可复用的工程框架，价值超出本文自身
量化能力鸿沟：33.3% 这个数字是对整个 Web Agent 领域现状的清醒定量描述

待验证的问题

GPT-5.4 低分的解释：Claude Code 子 Agent 作为评判者是否存在评判偏差？需要独立评判者交叉验证
地理/语言偏差：144 个网站的选取是否覆盖了非英语网站和非美国服务？
任务更新维护：真实网站会变化（UI 更新、功能下线），基准的时效性如何保证？
GLM-5 文本模型的 33% 理论上限：无视觉能力模型在需要截图的任务上如何处理？

核心洞见

★ Insight ─────────────────────────────────────

33.3% 是一条界线，不是一个终点：这个数字说明 AI Web Agent 已经具备基本能力（不是 0%），但距离生产级可靠性（通常需要 >80%）仍有系统性差距。这条界线精确地定位了当前技术的实际状态。
评测基础设施本身是贡献：5 层同步录制 + CDP 拦截的架构，解决了”如何在真实网站上安全评测写入型 Agent 任务”这个此前没有好答案的工程问题。这个基础设施的价值将随着 Agent 研究的深入而不断放大。
Finance 和 Academic 的 50% 成功率是产品化的起点：不是所有 Web Agent 任务都同样难——ClawBench 的分类数据告诉我们哪些领域的 Agent 已经接近可用（结构化表单、明确流程），哪些领域仍需更多研究（Dev 工具、宠物服务等长尾场景）。

─────────────────────────────────────────────────

ClawBench：真实网站上的 AI Agent 评测，最强模型成功率仅 33.3%

ClawBench：真实网站上的 AI Agent 评测，最强模型成功率仅 33.3%

速查卡

研究背景

现有基准的根本局限

为什么是”写入型任务”（Write-Heavy）？

技术架构

核心创新：轻量级拦截层

五层同步录制基础设施

评测方式：Claude Code 子 Agent 作为评判者

数据集

规模与覆盖

8 个高层级任务组

任务标注流程

评测结果

总体排名

Claude Sonnet 4.6 各任务组成功率

与现有基准的对比鸿沟

真实网站的系统性难点

AI Agent 在真实网站上面临的挑战

GLM-5 的特殊表现

GPT-5.4 仅 6.5% 的可能解释

产品化含义

对 AI Agent 创业公司

对 Foundation Model 公司

批判性评估

研究的价值

待验证的问题

核心洞见

延伸阅读