Esc
输入关键词开始搜索
News

ClawBench:真实网站上的 AI Agent 评测,最强模型成功率仅 33.3%

ClawBench:真实网站上的 AI Agent 评测,最强模型成功率仅 33.3%

论文链接:https://arxiv.org/abs/2604.08523 来源:arXiv preprint 发布日期:2026-04-10 HuggingFace Papers:104 upvotes

速查卡

项目内容
一句话总结在 144 个真实生产环境网站上测试 AI Agent 日常任务能力,最强模型 Claude Sonnet 4.6 仅能完成 33.3% 的任务
大白话版以前的 AI Agent 测评都是在”练习题”上考试(简化的模拟网站、读取任务),ClawBench 直接在真实网站上考”实操”(购物、预约、求职、注册),结果即使最强的 Claude Sonnet 4.6 也有约 2/3 的任务失败了
核心数字144 个真实网站,153 项任务,15 个类别,8 个任务组,Claude Sonnet 4.6 成功率 33.3%
价值评级B+ — 真实世界能力评估,揭示 Agent 研究与实际部署的关键鸿沟
适用场景AI Agent 研究者、Web Agent 产品负责人、SOTA 能力评估、AI 产品化路径规划

研究背景

现有基准的根本局限

在 ClawBench 出现之前,Web Agent 评测领域的主流基准存在一个系统性偏差:它们都不在真实网站上测试。

基准问题
WebArena使用托管的网站副本(replicas),而非真实生产环境
Mind2Web静态页面快照,无法反映动态网站的真实复杂性
OSWorld桌面应用为主,Web 任务覆盖有限
WorkArenaServiceNow 平台内部任务,单一平台

这些基准的共同问题:高度控制的测评环境消除了真实网站中的系统性难点,导致在基准上表现出色的模型,在真实部署中却屡屡失败。

开发者们发现这个现象有一个名字:“基准幻觉”(benchmark illusion)——模型在标准化评测上得到 65-75% 的高分,实际落地时成功率远低于此。

ClawBench 的设计出发点就是彻底打破这个幻觉:在真实的生产环境网站上,测试 AI Agent 完成真实人类日常任务的能力。

为什么是”写入型任务”(Write-Heavy)?

现有基准偏向于读取型任务(search、retrieve、find information),但现实中最有价值的 Agent 任务是写入型任务

  • 购买商品、预订酒店、申请职位
  • 提交表单、完成注册、发起退款
  • 创建账户、更改设置、进行预约

这些”状态改变型”任务不仅更难,而且评测本身有安全风险——你不能真的让 Agent 买下一堆东西或申请大量工作。这正是 ClawBench 必须解决的核心工程挑战。

技术架构

核心创新:轻量级拦截层

ClawBench 通过 Chrome Extension + CDP(Chrome DevTools Protocol) 构建了一个”安全沙盒中的真实环境”:

用户任务指令 → AI Agent 操作浏览器 → Chrome Extension 拦截最终提交

                               阻止"确认购买/提交申请"请求到达服务器
                               但记录完整的请求体(表单字段、payload)

                            与人工标注的基准 payload 进行比对

关键设计点:

  1. 选择性拦截:只拦截”最终提交”操作(如点击”完成购买”),所有其他请求(页面导航、AJAX 加载、内容请求)正常通过
  2. 100% 拦截精度:在全部 153 个任务上实现了零漏拦截,没有一次真实提交意外触达服务器
  3. 无需修改网站:完全从客户端实现,真实网站不需要任何配合或改动
  4. 完整 payload 捕获:记录完整的 HTTP 请求体,包括所有表单字段,用于与基准 payload 精确比对

五层同步录制基础设施

每次 Agent 执行任务都会生成五个同步数据流:

层次内容用途
会话录制完整视频(Xvfb 虚拟显示 + FFmpeg 编码)可视化回放,人工 debug
动作截图每个浏览器动作后的页面截图步骤级视觉状态记录
HTTP 流量完整请求日志(含 payload)最终答案的核心评判依据
Agent 消息推理轨迹和工具调用的结构化 JSON分析 Agent 决策逻辑
浏览器动作底层操作事件(点击、键盘、滚动)细粒度操作轨迹

这五层数据的同步记录,使 ClawBench 不仅能判断”成功/失败”,还能做步骤级对齐分析(step-level alignment)——找到 Agent 在任务的哪个步骤开始偏离正确轨迹。

评测方式:Claude Code 子 Agent 作为评判者

最终的成功判断由 “Claude Code 子 Agent 充当评判者” 完成:

  • 输入:任务指令 + 人工基准轨迹/payload + Agent 执行轨迹/payload
  • 输出:二元判断(0/1)+ 每一步的对齐分析和判断理由
  • 特点:每一个失败判断都有可追溯的步骤级理由,而非黑盒判断

数据集

规模与覆盖

维度数量
总任务数153
覆盖网站数144(均为真实生产环境)
任务类别(细粒度)15
任务组(高层级)8
人工标注基准轨迹153 条(每个任务都有)

8 个高层级任务组

组别代表性任务类型
Daily日常服务预约、餐厅订座、外卖下单
Work求职申请、任务提交、工作流管理
Dev开发工具注册、API 申请、代码平台操作
Social社交平台注册、社区发帖、账号创建
Academic学术系统注册、论文投稿、会议报名
Travel机票/酒店预订、行程规划、交通查询
Pets宠物服务预约、兽医预约、宠物用品购买
Finance金融账户操作、转账、保险申请

任务标注流程

  1. 候选生成:标注者调研各平台,为真实用户场景实例化具体任务目标
  2. 多阶段筛选:独立核验去除需要付费订阅、地理限制或已下线的任务
  3. 拦截信号标注:人工专家为每个任务识别精确的 HTTP 端点、方法和 payload 模式
  4. 基准轨迹录制:人工在相同基础设施下完成每个任务,产生对比基准

评测结果

总体排名

排名模型成功率
1Claude Sonnet 4.633.3%
2GLM-5 †24.2%
3Gemini 3 Flash19.0%
4Claude Haiku 4.518.3%
5GPT-5.46.5%
6Gemini 3.1 Flash Lite3.3%
7Kimi K2.50.7%

(†GLM-5 为纯文本模型,不具备视觉能力)

第一个关键数字:最强模型 Claude Sonnet 4.6 的 33.3%——这意味着 153 项任务中约 102 项失败。

第二个关键数字:GPT-5.4 仅 6.5%,远低于直觉预期,排名第 5,落后 Claude Haiku 4.5(18.3%)。

Claude Sonnet 4.6 各任务组成功率

任务组成功率
Finance50.0%
Academic50.0%
Daily44.2%
Social38.9%
Travel23.1%
Work19.0%
Pets18.2%
Dev11.1%

规律分析:

  • 高成功率(≥40%):Finance、Academic、Daily——这些领域的表单结构相对标准化,字段意义明确
  • 中等成功率(20-40%):Social、Travel——需要理解一定上下文,但流程相对清晰
  • 低成功率(<20%):Work、Pets、Dev——需要特定背景知识、复杂表单理解或多系统交互

与现有基准的对比鸿沟

这是 ClawBench 最有力的发现之一:

在 OSWorld、WebArena 等基准上得分 65-75% 的模型,在 ClawBench 上只有 33.3%(最强)到 0.7%(最弱) 的成功率。

这不是测量误差,而是能力鸿沟的系统性揭示

能力测量结果
结构化编码任务(SWE-bench)80%+
合成 Web 任务(WebArena)65-75%
真实网站任务(ClawBench)6.5% - 33.3%

从结构化编码到真实 Web 任务,性能折损约 50-90%。这个折损来自于真实网站的系统性难点。

真实网站的系统性难点

AI Agent 在真实网站上面临的挑战

  1. Cookie 同意弹窗:任何操作前都需要处理,且弹窗形式千变万化
  2. 动态 JavaScript 渲染:页面内容动态加载,截图时机选择复杂
  3. CAPTCHA 与反爬机制:真实网站的主动防御让自动化操作受阻
  4. 账户状态依赖:很多任务需要预先的账户状态(已登录、已填写部分信息)
  5. 多步骤表单验证:实时验证字段(手机号格式、地址完整性),不满足条件就无法继续
  6. 隐式上下文:用户在真实场景中会带来历史上下文,纯粹的 Agent 没有这些背景

这些挑战在合成基准中都被人为消除了,因此基准成功 ≠ 真实世界成功。

GLM-5 的特殊表现

GLM-5 作为文本模型(无视觉能力),排名第二(24.2%)值得关注:

  • 这说明在很多 Web 任务中,视觉理解(识别 UI 元素位置)并非最关键的能力
  • 理解任务意图、填写正确的字段值、处理表单逻辑——这些文本推理能力在很多场景下是决定性的
  • 这对 Web Agent 产品设计有启示:混合模式(文本主导 + 视觉辅助)可能比纯视觉模式更高效

GPT-5.4 仅 6.5% 的可能解释

GPT-5.4 的异常低分(相比 Claude Sonnet 4.6 差 5 倍以上)需要谨慎解读:

  • 评估使用了”Claude Code 子 Agent 作为评判者”,可能存在对 Anthropic 模型的系统性偏差
  • GPT-5.4 的 Tool Use 格式或 Agent 行为模式与评判者的期望不匹配
  • 评测版本和 API 参数设置可能有差异

论文作者是否充分控制了这些变量,需要进一步核查。

产品化含义

对 AI Agent 创业公司

直接含义:如果最强的 Foundation Model 只有 33.3% 的成功率,那么”AI 替代人工处理日常网页任务”的全自动化路线面临的不是微调问题,而是系统性能力缺口。

可行路径

  1. 混合工作流:AI 处理结构化步骤,人工处理复杂/不确定情况(Human-in-the-Loop)
  2. 垂直专化:在 Finance(50%)或 Academic(50%)等高成功率领域深耕,而非追求通用 Web 自动化
  3. 任务过滤:先评估任务类型,只对成功率高的任务类型使用 AI Agent

对 Foundation Model 公司

改进方向

  • 动态内容处理:更强的”等待页面加载”策略,处理 AJAX 和 SPA 框架
  • 弹窗/遮挡处理:系统性地识别并处理 Cookie 同意、广告弹窗等常见干扰
  • 表单字段推理:理解复杂表单的字段语义和验证规则
  • 多步骤状态管理:在长流程中维护上下文状态,不在中途丢失目标

批判性评估

研究的价值

  1. 填补评测空白:现有 Web Agent 基准的”真实性”缺失是公认问题,ClawBench 提供了目前最接近真实的评估
  2. 工程贡献:5 层录制基础设施 + CDP 拦截机制是可复用的工程框架,价值超出本文自身
  3. 量化能力鸿沟:33.3% 这个数字是对整个 Web Agent 领域现状的清醒定量描述

待验证的问题

  1. GPT-5.4 低分的解释:Claude Code 子 Agent 作为评判者是否存在评判偏差?需要独立评判者交叉验证
  2. 地理/语言偏差:144 个网站的选取是否覆盖了非英语网站和非美国服务?
  3. 任务更新维护:真实网站会变化(UI 更新、功能下线),基准的时效性如何保证?
  4. GLM-5 文本模型的 33% 理论上限:无视觉能力模型在需要截图的任务上如何处理?

核心洞见

★ Insight ─────────────────────────────────────

  1. 33.3% 是一条界线,不是一个终点:这个数字说明 AI Web Agent 已经具备基本能力(不是 0%),但距离生产级可靠性(通常需要 >80%)仍有系统性差距。这条界线精确地定位了当前技术的实际状态。

  2. 评测基础设施本身是贡献:5 层同步录制 + CDP 拦截的架构,解决了”如何在真实网站上安全评测写入型 Agent 任务”这个此前没有好答案的工程问题。这个基础设施的价值将随着 Agent 研究的深入而不断放大。

  3. Finance 和 Academic 的 50% 成功率是产品化的起点:不是所有 Web Agent 任务都同样难——ClawBench 的分类数据告诉我们哪些领域的 Agent 已经接近可用(结构化表单、明确流程),哪些领域仍需更多研究(Dev 工具、宠物服务等长尾场景)。

─────────────────────────────────────────────────

延伸阅读

  • WebArena(2023):Web Agent 基准领域的标志性工作,ClawBench 最直接的对比对象
  • Mind2Web(2023):静态页面快照的 Web Agent 评测,揭示了 ClawBench 的进步方向
  • OSWorld(2024):桌面 + Web 混合 Agent 评测,与 ClawBench 互补
  • SWE-bench(2024):代码 Agent 评测的事实标准,与 ClawBench 形成能力维度对比
  • Computer Use API(Anthropic):Claude 浏览器控制 API,ClawBench 揭示的能力缺口是其需要解决的实际问题