From 0% to 36% on Day 1 of ARC-AGI-3
From 0% to 36% on Day 1 of ARC-AGI-3
原文链接:https://www.symbolica.ai/blog/arc-agi-3 代码:https://github.com/symbolica-ai/ARC-AGI-3-Agents ARC-AGI-3 技术报告:https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf 来源:Symbolica AI 发布日期:2026-03-26
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | Symbolica 的 Agentica SDK 在 ARC-AGI-3 首日得分 36%,CoT 基线仅 0.2-0.3%,证明 Agent 架构在交互式推理中碾压静态推理 |
| 大白话版 | 同一个 AI 模型(Opus 4.6),如果只是”想完再答”(CoT)基本啥也做不了(0.2%),但如果让它”边试边学”(Agent)就能解决 36% 的任务——而且还省钱 9 倍 |
| 核心数字 | 36.08% Agent 分数 vs 0.2% CoT 基线、8,900 成本、113/182 关卡通过、7/25 游戏完成 |
| 评级 | A — 必读级:首个在 ARC-AGI-3 上展示有意义性能的公开结果,是”推理时代→Agent 时代”转变的最直观证据 |
| 代码 | https://github.com/symbolica-ai/ARC-AGI-3-Agents |
| 关键词 | ARC-AGI-3, Agentica, Agent, 交互式推理, CoT 失效, 试错学习 |
核心 Insight
这篇工作的核心洞察一语中的:面对需要交互和试错的任务,“想得更深”不如”做了再改”。
ARC-AGI-3 从 ARC-AGI-2 的静态谜题升级为交互式环境——AI 需要与环境互动、观察反馈、调整策略、多步试错。这完全改变了游戏规则:
- CoT(Chain-of-Thought)基线: Opus 4.6 Max 花了 $8,900 只得到 0.2%——最强的”静态推理”在交互式任务面前几乎完全失效
- Agentica Agent: 同样使用 Opus 4.6,但加入了 Agent 架构(交互、试错、反馈循环),得到 36.08%,成本仅 $1,005
这是”推理模型时代使命完成”最有力的数据证明。
为什么 CoT 在这里几乎完全失效?
ARC-AGI-3 的任务本质上是探索-学习-适应循环:
- 你面对一个未知的游戏环境
- 你不知道规则是什么
- 你需要通过尝试来发现规则
- 然后利用发现的规则通过更多关卡
CoT 的工作方式是”先想清楚再行动”——但当你连规则都不知道时,再多的思考也是无源之水。Agent 的工作方式是”先试试看,看看会发生什么,然后调整”——这正是未知环境中学习的唯一方式。
类比: 这就像学骑自行车——你不可能通过”在脑中推演物理方程”来学会骑车(CoT),你只能通过实际骑上去、摔倒、调整来学习(Agent)。
性价比的颠覆
| 方法 | 模型 | 分数 | 成本 | 性价比(分数/$) |
|---|---|---|---|---|
| CoT Max | Opus 4.6 | 0.25% | $8,900 | 0.00003 |
| CoT High | GPT 5.4 | 0.30% | 未公开 | — |
| Agentica | Opus 4.6 | 36.08% | $1,005 | 0.036 |
Agentica 的性价比是 CoT 的约 1,200 倍。
成绩详解
游戏完成情况
Agentica 在 25 个游戏中完成了 7 个:
| 游戏 | 分数 | 状态 |
|---|---|---|
| CN04 | 97.6% | ✅ 完成 |
| LP85 | 84.16% | ✅ 完成 |
| AR25 | 83.28% | ✅ 完成 |
| FT09 | 77.59% | ✅ 完成 |
| CD82 | 70.15% | 超越人类基线 |
| TR87 | 69.21% | 超越人类基线 |
| TU93 | 67.87% | 超越人类基线 |
| … | … | … |
| BP35 | 0.22% | 几乎无进展 |
关键观察:
- 在 CN04 上达到 97.6%——接近完美通关
- 在约一半的游戏上超越了人类基线
- 但在某些游戏上(如 BP35、SP80)几乎无法开始——说明当前 Agent 对某些类型的规则发现能力仍然有限
- 游戏间方差极大(0.22% 到 97.6%),说明 Agent 的能力高度依赖于任务的结构特征
与 ARC-AGI-2 的对比
ARC-AGI-2 是静态谜题,最终被纯推理方法解决到较高水平。ARC-AGI-3 引入交互后,难度陡增:
- ARC-AGI-2:前沿模型可达 60-80%(纯推理)
- ARC-AGI-3:前沿模型 CoT 仅 0.2-0.3%;Agent 也”仅”36%
36% 看似不高,但考虑到这是首日成绩、在全新的交互式基准上、以极低成本实现的——这是非常有意义的起点。
与林俊旸 “Agentic Thinking” 论断的呼应
前阿里 Qwen 技术主管林俊旸在同日发表的文章中提出:“推理模型时代使命完成,下一步是 Agentic Thinking——为了行动而思考。”
Symbolica 的结果为这一论断提供了最直接的数据支撑:
| 林俊旸的论点 | Symbolica 的数据 |
|---|---|
| ”纯推理(Thinking)在需要行动的场景中失效” | CoT 基线 0.2%——完全失效 |
| ”Agent 需要判断何时停止思考开始行动” | Agentica 的试错循环实现了思考-行动交替 |
| ”Agent 需要消化环境噪声” | Agentica 在嘈杂的交互环境中仍能提取规则 |
| ”失败后修正计划而非推倒重来” | Agent 在多关卡中逐步改进策略 |
批判性分析
局限性
-
36% 仍远低于人类: 人类在 ARC-AGI-3 上的表现虽然也不完美,但显著高于 36%。Agent 的交互式推理能力仍有巨大提升空间。
-
游戏间方差极大: Agent 在某些游戏上接近完美,在另一些上几乎完全失败。这说明当前的 Agent 架构对某些类型的规则发现能力有明显盲区。
-
成本仍然不低: 8,900,但对于研究社区的广泛参与仍是门槛。
改进方向
- 元学习策略: 让 Agent 在跨游戏的经验中学习更通用的探索策略,减少游戏间的方差
- 分层推理: 结合 CoT(用于局部推理)和 Agent(用于全局探索),可能比纯 Agent 或纯 CoT 都更有效
- 更高效的试错: 减少无效尝试的次数,通过更聪明的假设生成来加速规则发现
独立观察
-
ARC-AGI-3 可能成为 Agent 能力的”新黄金标准”——就像 SWE-bench 之于代码生成、MMLU 之于知识问答。它测量的是 AI 在未知环境中学习和适应的能力,这比静态基准更接近”通用智能”的本质。
-
Symbolica 选择在 Day 1 就公开结果和代码(而非等到优化到更高分数再发论文),这种”科学开放性”值得赞赏。它为其他团队提供了基线和参考实现。
-
最关键的信号:相同模型(Opus 4.6)在 CoT 和 Agent 架构下的性能差异是 180 倍(36% vs 0.2%)。这说明 Agent 架构不是在模型能力之上的”锦上添花”,而是解锁模型在交互式任务中潜力的必要条件。模型的”真实智能水平”可能远高于静态基准所显示的——关键在于如何让它与环境交互。