News

From 0% to 36% on Day 1 of ARC-AGI-3

原文链接：https://www.symbolica.ai/blog/arc-agi-3 代码：https://github.com/symbolica-ai/ARC-AGI-3-Agents ARC-AGI-3 技术报告：https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf 来源：Symbolica AI 发布日期：2026-03-26

速查卡

项目	内容
一句话总结	Symbolica 的 Agentica SDK 在 ARC-AGI-3 首日得分 36%，CoT 基线仅 0.2-0.3%，证明 Agent 架构在交互式推理中碾压静态推理
大白话版	同一个 AI 模型（Opus 4.6），如果只是”想完再答”（CoT）基本啥也做不了（0.2%），但如果让它”边试边学”（Agent）就能解决 36% 的任务——而且还省钱 9 倍
核心数字	36.08% Agent 分数 vs 0.2% CoT 基线、 $1,005 vs$ 8,900 成本、113/182 关卡通过、7/25 游戏完成
评级	A — 必读级：首个在 ARC-AGI-3 上展示有意义性能的公开结果，是”推理时代→Agent 时代”转变的最直观证据
代码	https://github.com/symbolica-ai/ARC-AGI-3-Agents
关键词	ARC-AGI-3, Agentica, Agent, 交互式推理, CoT 失效, 试错学习

核心 Insight

这篇工作的核心洞察一语中的：面对需要交互和试错的任务，“想得更深”不如”做了再改”。

ARC-AGI-3 从 ARC-AGI-2 的静态谜题升级为交互式环境——AI 需要与环境互动、观察反馈、调整策略、多步试错。这完全改变了游戏规则：

CoT（Chain-of-Thought）基线： Opus 4.6 Max 花了 $8,900 只得到 0.2%——最强的”静态推理”在交互式任务面前几乎完全失效
Agentica Agent： 同样使用 Opus 4.6，但加入了 Agent 架构（交互、试错、反馈循环），得到 36.08%，成本仅 $1,005

这是”推理模型时代使命完成”最有力的数据证明。

为什么 CoT 在这里几乎完全失效？

ARC-AGI-3 的任务本质上是探索-学习-适应循环：

你面对一个未知的游戏环境
你不知道规则是什么
你需要通过尝试来发现规则
然后利用发现的规则通过更多关卡

CoT 的工作方式是”先想清楚再行动”——但当你连规则都不知道时，再多的思考也是无源之水。Agent 的工作方式是”先试试看，看看会发生什么，然后调整”——这正是未知环境中学习的唯一方式。

类比： 这就像学骑自行车——你不可能通过”在脑中推演物理方程”来学会骑车（CoT），你只能通过实际骑上去、摔倒、调整来学习（Agent）。

性价比的颠覆

方法	模型	分数	成本	性价比(分数/$)
CoT Max	Opus 4.6	0.25%	$8,900	0.00003
CoT High	GPT 5.4	0.30%	未公开	—
Agentica	Opus 4.6	36.08%	$1,005	0.036

Agentica 的性价比是 CoT 的约 1,200 倍。

成绩详解

游戏完成情况

Agentica 在 25 个游戏中完成了 7 个：

游戏	分数	状态
CN04	97.6%	✅ 完成
LP85	84.16%	✅ 完成
AR25	83.28%	✅ 完成
FT09	77.59%	✅ 完成
CD82	70.15%	超越人类基线
TR87	69.21%	超越人类基线
TU93	67.87%	超越人类基线
…	…	…
BP35	0.22%	几乎无进展

关键观察：

在 CN04 上达到 97.6%——接近完美通关
在约一半的游戏上超越了人类基线
但在某些游戏上（如 BP35、SP80）几乎无法开始——说明当前 Agent 对某些类型的规则发现能力仍然有限
游戏间方差极大（0.22% 到 97.6%），说明 Agent 的能力高度依赖于任务的结构特征

与 ARC-AGI-2 的对比

ARC-AGI-2 是静态谜题，最终被纯推理方法解决到较高水平。ARC-AGI-3 引入交互后，难度陡增：

ARC-AGI-2：前沿模型可达 60-80%（纯推理）
ARC-AGI-3：前沿模型 CoT 仅 0.2-0.3%；Agent 也”仅”36%

36% 看似不高，但考虑到这是首日成绩、在全新的交互式基准上、以极低成本实现的——这是非常有意义的起点。

与林俊旸 “Agentic Thinking” 论断的呼应

前阿里 Qwen 技术主管林俊旸在同日发表的文章中提出：“推理模型时代使命完成，下一步是 Agentic Thinking——为了行动而思考。”

Symbolica 的结果为这一论断提供了最直接的数据支撑：

林俊旸的论点	Symbolica 的数据
”纯推理（Thinking）在需要行动的场景中失效”	CoT 基线 0.2%——完全失效
”Agent 需要判断何时停止思考开始行动”	Agentica 的试错循环实现了思考-行动交替
”Agent 需要消化环境噪声”	Agentica 在嘈杂的交互环境中仍能提取规则
”失败后修正计划而非推倒重来”	Agent 在多关卡中逐步改进策略

批判性分析

局限性

36% 仍远低于人类： 人类在 ARC-AGI-3 上的表现虽然也不完美，但显著高于 36%。Agent 的交互式推理能力仍有巨大提升空间。
游戏间方差极大： Agent 在某些游戏上接近完美，在另一些上几乎完全失败。这说明当前的 Agent 架构对某些类型的规则发现能力有明显盲区。
成本仍然不低： $1,005 虽然远低于 CoT 的$ 8,900，但对于研究社区的广泛参与仍是门槛。

改进方向

元学习策略： 让 Agent 在跨游戏的经验中学习更通用的探索策略，减少游戏间的方差
分层推理： 结合 CoT（用于局部推理）和 Agent（用于全局探索），可能比纯 Agent 或纯 CoT 都更有效
更高效的试错： 减少无效尝试的次数，通过更聪明的假设生成来加速规则发现

独立观察

ARC-AGI-3 可能成为 Agent 能力的”新黄金标准”——就像 SWE-bench 之于代码生成、MMLU 之于知识问答。它测量的是 AI 在未知环境中学习和适应的能力，这比静态基准更接近”通用智能”的本质。
Symbolica 选择在 Day 1 就公开结果和代码（而非等到优化到更高分数再发论文），这种”科学开放性”值得赞赏。它为其他团队提供了基线和参考实现。
最关键的信号：相同模型（Opus 4.6）在 CoT 和 Agent 架构下的性能差异是 180 倍（36% vs 0.2%）。这说明 Agent 架构不是在模型能力之上的”锦上添花”，而是解锁模型在交互式任务中潜力的必要条件。模型的”真实智能水平”可能远高于静态基准所显示的——关键在于如何让它与环境交互。