Esc
输入关键词开始搜索
News

From 0% to 36% on Day 1 of ARC-AGI-3

From 0% to 36% on Day 1 of ARC-AGI-3

原文链接:https://www.symbolica.ai/blog/arc-agi-3 代码:https://github.com/symbolica-ai/ARC-AGI-3-Agents ARC-AGI-3 技术报告:https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf 来源:Symbolica AI 发布日期:2026-03-26

速查卡

项目内容
一句话总结Symbolica 的 Agentica SDK 在 ARC-AGI-3 首日得分 36%,CoT 基线仅 0.2-0.3%,证明 Agent 架构在交互式推理中碾压静态推理
大白话版同一个 AI 模型(Opus 4.6),如果只是”想完再答”(CoT)基本啥也做不了(0.2%),但如果让它”边试边学”(Agent)就能解决 36% 的任务——而且还省钱 9 倍
核心数字36.08% Agent 分数 vs 0.2% CoT 基线、1,005vs1,005 vs 8,900 成本、113/182 关卡通过、7/25 游戏完成
评级A — 必读级:首个在 ARC-AGI-3 上展示有意义性能的公开结果,是”推理时代→Agent 时代”转变的最直观证据
代码https://github.com/symbolica-ai/ARC-AGI-3-Agents
关键词ARC-AGI-3, Agentica, Agent, 交互式推理, CoT 失效, 试错学习

核心 Insight

这篇工作的核心洞察一语中的:面对需要交互和试错的任务,“想得更深”不如”做了再改”。

ARC-AGI-3 从 ARC-AGI-2 的静态谜题升级为交互式环境——AI 需要与环境互动、观察反馈、调整策略、多步试错。这完全改变了游戏规则:

  • CoT(Chain-of-Thought)基线: Opus 4.6 Max 花了 $8,900 只得到 0.2%——最强的”静态推理”在交互式任务面前几乎完全失效
  • Agentica Agent: 同样使用 Opus 4.6,但加入了 Agent 架构(交互、试错、反馈循环),得到 36.08%,成本仅 $1,005

这是”推理模型时代使命完成”最有力的数据证明。

为什么 CoT 在这里几乎完全失效?

ARC-AGI-3 的任务本质上是探索-学习-适应循环:

  1. 你面对一个未知的游戏环境
  2. 你不知道规则是什么
  3. 你需要通过尝试来发现规则
  4. 然后利用发现的规则通过更多关卡

CoT 的工作方式是”先想清楚再行动”——但当你连规则都不知道时,再多的思考也是无源之水。Agent 的工作方式是”先试试看,看看会发生什么,然后调整”——这正是未知环境中学习的唯一方式。

类比: 这就像学骑自行车——你不可能通过”在脑中推演物理方程”来学会骑车(CoT),你只能通过实际骑上去、摔倒、调整来学习(Agent)。

性价比的颠覆

方法模型分数成本性价比(分数/$)
CoT MaxOpus 4.60.25%$8,9000.00003
CoT HighGPT 5.40.30%未公开
AgenticaOpus 4.636.08%$1,0050.036

Agentica 的性价比是 CoT 的约 1,200 倍

成绩详解

游戏完成情况

Agentica 在 25 个游戏中完成了 7 个:

游戏分数状态
CN0497.6%✅ 完成
LP8584.16%✅ 完成
AR2583.28%✅ 完成
FT0977.59%✅ 完成
CD8270.15%超越人类基线
TR8769.21%超越人类基线
TU9367.87%超越人类基线
BP350.22%几乎无进展

关键观察:

  • 在 CN04 上达到 97.6%——接近完美通关
  • 在约一半的游戏上超越了人类基线
  • 但在某些游戏上(如 BP35、SP80)几乎无法开始——说明当前 Agent 对某些类型的规则发现能力仍然有限
  • 游戏间方差极大(0.22% 到 97.6%),说明 Agent 的能力高度依赖于任务的结构特征

与 ARC-AGI-2 的对比

ARC-AGI-2 是静态谜题,最终被纯推理方法解决到较高水平。ARC-AGI-3 引入交互后,难度陡增:

  • ARC-AGI-2:前沿模型可达 60-80%(纯推理)
  • ARC-AGI-3:前沿模型 CoT 仅 0.2-0.3%;Agent 也”仅”36%

36% 看似不高,但考虑到这是首日成绩、在全新的交互式基准上、以极低成本实现的——这是非常有意义的起点。

与林俊旸 “Agentic Thinking” 论断的呼应

前阿里 Qwen 技术主管林俊旸在同日发表的文章中提出:“推理模型时代使命完成,下一步是 Agentic Thinking——为了行动而思考。”

Symbolica 的结果为这一论断提供了最直接的数据支撑:

林俊旸的论点Symbolica 的数据
”纯推理(Thinking)在需要行动的场景中失效”CoT 基线 0.2%——完全失效
”Agent 需要判断何时停止思考开始行动”Agentica 的试错循环实现了思考-行动交替
”Agent 需要消化环境噪声”Agentica 在嘈杂的交互环境中仍能提取规则
”失败后修正计划而非推倒重来”Agent 在多关卡中逐步改进策略

批判性分析

局限性

  1. 36% 仍远低于人类: 人类在 ARC-AGI-3 上的表现虽然也不完美,但显著高于 36%。Agent 的交互式推理能力仍有巨大提升空间。

  2. 游戏间方差极大: Agent 在某些游戏上接近完美,在另一些上几乎完全失败。这说明当前的 Agent 架构对某些类型的规则发现能力有明显盲区。

  3. 成本仍然不低: 1,005虽然远低于CoT1,005 虽然远低于 CoT 的 8,900,但对于研究社区的广泛参与仍是门槛。

改进方向

  1. 元学习策略: 让 Agent 在跨游戏的经验中学习更通用的探索策略,减少游戏间的方差
  2. 分层推理: 结合 CoT(用于局部推理)和 Agent(用于全局探索),可能比纯 Agent 或纯 CoT 都更有效
  3. 更高效的试错: 减少无效尝试的次数,通过更聪明的假设生成来加速规则发现

独立观察

  • ARC-AGI-3 可能成为 Agent 能力的”新黄金标准”——就像 SWE-bench 之于代码生成、MMLU 之于知识问答。它测量的是 AI 在未知环境中学习和适应的能力,这比静态基准更接近”通用智能”的本质。

  • Symbolica 选择在 Day 1 就公开结果和代码(而非等到优化到更高分数再发论文),这种”科学开放性”值得赞赏。它为其他团队提供了基线和参考实现。

  • 最关键的信号:相同模型(Opus 4.6)在 CoT 和 Agent 架构下的性能差异是 180 倍(36% vs 0.2%)。这说明 Agent 架构不是在模型能力之上的”锦上添花”,而是解锁模型在交互式任务中潜力的必要条件。模型的”真实智能水平”可能远高于静态基准所显示的——关键在于如何让它与环境交互。