News

Measuring Progress Toward AGI: A Cognitive Taxonomy

原文链接：https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/ 作者：Ryan Burnell et al. 机构：Google DeepMind 发布日期：2026-03-17

速查卡

项目	内容
一句话总结	基于认知科学提出 10 项核心认知能力分类和三阶段评估协议，系统化衡量 AI 向 AGI 的进展
大白话版	与其争论”AGI 来了没有”，不如先搞清楚”通用智能到底需要哪些能力、怎么测”——DeepMind 从认知科学借了一套框架，列出 10 项关键认知能力，并发现其中 5 项我们连怎么测都不知道
核心数字	10 项认知能力 / 三阶段评估协议 / 5 项能力缺乏评估工具 / Kaggle Hackathon $200K 总奖金 / 5 个赛道
评级	B+ — 方法论贡献远大于实验贡献。首次系统性地将认知科学方法引入 AGI 评估，但框架本身尚未产生经验性结果
代码	暂无（框架/方法论论文）
关键词	AGI Measurement, Cognitive Taxonomy, Cognitive Science, Evaluation Framework, Human Baseline, Metacognition, Social Cognition

核心 Insight

“我们甚至还没有测量 AGI 的工具”——这本身就是一个重要的科学发现。

AI 领域关于 AGI 的讨论长期陷入一种奇特的困境：一方面，Jensen Huang 在 Lex Fridman 播客上宣称”我们已经实现了 AGI”；另一方面，学术界对 AGI 的定义和测量标准始终含糊不清。这篇论文的核心洞察不是”AGI 还有多远”，而是一个更基本的问题：我们目前根本没有科学的方法来回答这个问题。

DeepMind 团队做了一件看似简单但实际上非常根本性的事情：他们回到认知科学——研究人类智能的学科——去寻找”通用智能”的操作性定义。这产生了一个关键的范式转换：

从”AI 能做什么任务”转向”AI 具备什么认知能力”。

传统的 AI 评估（包括 MMLU、HumanEval、ARC-AGI 等）本质上是任务导向的——模型能解数学题吗？能写代码吗？能推理吗？但任务表现并不等同于底层认知能力。一个模型可能通过模式匹配在数学基准上得高分，但完全不具备”推理”这个认知能力。

认知科学提供了一个不同的视角：人类智能不是”能做什么任务”的清单，而是一组可组合的认知能力（cognitive abilities）。通用智能的本质是这些能力的协同运作。DeepMind 的框架试图将这种理解迁移到 AI 评估中。

为什么这个时间点很重要？

2023 年 DeepMind 发表过 “Levels of AGI” 论文，提出了 AGI 的分级框架（从 Emerging AGI 到 Artificial Superintelligence）。但那篇论文主要关注”能力水平”的分级，没有回答”用什么具体方法来测量”的问题。这篇论文是那个工作的自然延续——从”定义级别”到”设计测量工具”。

同时，AI 能力的快速提升使得这个问题变得紧迫。当 GPT-5、Gemini 3、Claude 等模型在越来越多的任务上接近或超越人类水平时，我们需要一个比”跑 benchmark”更深刻的评估框架来理解：这些模型到底在哪些维度上接近人类智能，又在哪些维度上存在根本性的差距？

方法详解

10 项核心认知能力

DeepMind 团队从认知科学文献中提炼出 10 项被广泛认为是通用智能基础的认知能力。这不是一个任意的清单，而是基于认知心理学数十年研究积累的”认知架构”共识。

1. Perception（感知）

定义： 处理和解释感觉输入（视觉、听觉、触觉等），将原始信号转化为有意义的内部表征。

AI 现状： 这是 AI 相对较强的领域。视觉模型（CLIP、多模态 LLM）已经在很多感知任务上接近甚至超越人类。但值得注意的是，AI 的”感知”与人类感知有本质区别——AI 缺乏具身性（embodiment），其感知不与行动和环境交互耦合。

评估工具现状： 相对成熟。计算机视觉和语音识别领域有大量标准化评估方法。

2. Generation（生成）

定义： 产生连贯、有意义的输出——文本、图像、代码、语音等。

AI 现状： 当前 LLM 和生成式模型的核心能力。从 GPT 系列到 Diffusion 模型，生成能力的进步是近几年 AI 革命的主要驱动力。

评估工具现状： 相对成熟，但评估”生成质量”本身仍有很大争议（参考 LLM-as-Judge 的各种偏差研究）。

3. Attention（注意力）

定义： 从大量输入中选择性地聚焦于相关信息，抑制无关干扰。

AI 现状： Transformer 架构的核心就是”注意力机制”，但这里说的是认知科学意义上的注意力——不仅是信息的加权聚合，还包括注意力的灵活分配、持续注意、分散注意等复杂模式。当前 AI 的”注意力”是被训练固化的模式，而非真正的动态资源分配。

评估工具现状： 缺乏。这是 5 个评估缺口之一。认知科学中有成熟的注意力测试（如 Stroop 任务、视觉搜索范式），但这些测试直接迁移到 AI 评估时意义不明确——AI 没有”注意力资源”的概念。

4. Learning（学习）

定义： 从经验中获取新知识，适应新环境，积累能力。

AI 现状： 当前 LLM 主要通过预训练（静态学习）和 in-context learning（有限的动态学习）来体现学习能力。但真正意义上的”从少量经验中持续学习”仍然是一个未解决的问题。Few-shot learning、meta-learning 等方向取得了进展，但距离人类的学习灵活性还有很大差距。

评估工具现状： 缺乏。这是 5 个评估缺口之一。核心困难在于：如何区分”模型已经在预训练中见过类似数据”和”模型真正学到了新东西”？

5. Memory（记忆）

定义： 存储和检索信息，包括短期工作记忆和长期记忆。

AI 现状： LLM 的 context window 可以类比为”工作记忆”，RAG 系统可以类比为”外部长期记忆”。但人类记忆的核心特征——情景记忆（episodic memory）、语义网络的动态重组、遗忘曲线等——在当前 AI 中没有对应物。

评估工具现状： 有一定基础（如 needle-in-a-haystack 测试、长上下文评估），但与认知科学中的记忆模型对接不足。

6. Reasoning（推理）

定义： 逻辑推断、演绎、归纳、类比等从已知信息推导新结论的能力。

AI 现状： 这是近两年 AI 进步最显著的领域之一。Chain-of-thought prompting、o1/o3 系列的 reasoning token 等技术大幅提升了 LLM 的推理表现。但”推理”到底是真正的逻辑推导还是基于统计模式的近似，学术界仍有激烈争论。

评估工具现状： 相对成熟。GPQA、GSM8K、ARC、LogiQA 等基准提供了推理能力的多维评估。

7. Metacognition（元认知）

定义： 对自身认知过程的监控和调控——“知道自己知道什么”、“知道自己不知道什么”、“知道何时需要改变策略”。

AI 现状： 这可能是当前 AI 最弱的能力之一。LLM 的”幻觉”问题本质上就是元认知缺失的体现——模型不知道自己不知道。虽然有些技术（如 calibration、self-consistency）在一定程度上模拟了元认知，但这些都是外部施加的机制，而非模型内生的自我监控能力。

评估工具现状： 缺乏。这是 5 个评估缺口之一。核心困难：如何区分”模型真的在监控自身认知”和”模型被训练成输出’我不确定’这类文本”？

8. Executive Function（执行功能）

定义： 高级认知控制能力，包括计划（planning）、抑制（inhibition）、任务切换（task switching）。

AI 现状： AI Agent 领域正在快速发展（AutoGPT、Claude Code、Devin 等），这些系统体现了一定程度的计划和任务管理能力。但与人类的执行功能相比，AI Agent 在灵活应对计划偏差、在多个目标间动态权衡等方面仍有明显不足。

评估工具现状： 缺乏。这是 5 个评估缺口之一。认知科学中有成熟的执行功能测试（如 Wisconsin Card Sorting Test、Tower of London），但如何设计对 AI 有意义的等价测试是一个开放问题。

9. Problem Solving（问题解决）

定义： 面对新颖问题时的分解、探索和解决能力。

AI 现状： ARC-AGI 等基准专门测试这个维度。当前 AI 在结构化问题上表现不错，但在真正新颖的、需要范式突破的问题上仍然困难。

评估工具现状： 有一定基础。ARC-AGI 是这个方向最有影响力的评估工具，但它主要关注视觉-空间推理，覆盖面有限。

定义： 理解他人的心理状态（Theory of Mind）、意图、情感，进行社会推理和交互。

AI 现状： LLM 在一些 Theory of Mind 测试上表现不错（如 Sally-Anne 测试），但这些测试主要依赖文本推理，而非真正的社会认知。真正的社会认知涉及非语言线索的解读、文化背景的理解、社会规范的把握等更复杂的能力。

评估工具现状： 缺乏。这是 5 个评估缺口之一。现有的 Theory of Mind 测试大多可以通过文本模式匹配”解决”，而非真正测试社会认知能力。

三阶段评估协议

DeepMind 提出的评估方法论不是简单地给 AI 跑基准测试，而是一个以人类为锚点的系统化协议：

阶段一：认知任务套件评估

对目标 AI 系统在针对每项认知能力设计的任务套件上进行评估。这些任务套件应该来自认知科学中已有的实验范式，而非 AI 领域自行设计的 benchmark。

关键原则： 任务应该测试底层认知能力，而非任务特定的技能。例如，测试”推理”不应该用数学题（因为模型可能记住了解题模式），而应该用需要推理能力但不依赖特定知识的新颖任务。

阶段二：收集人类基线数据

在相同的任务套件上收集人类参与者的表现数据，建立人类基线分布。

关键原则： 不是简单地比较”平均人类 vs AI”，而是要建立完整的人类表现分布——包括不同年龄、教育背景、专业领域的人群。这使得评估结果可以回答”AI 在这项能力上处于人类什么水平”这样的分层问题。

阶段三：将 AI 表现映射到人类分布

将 AI 在每项认知能力上的表现定位到人类分布中——“这个 AI 的注意力能力处于人类第几百分位？”

核心创新点： 这种以人类分布为锚点的方法有两个重要优势：

可解释性强：百分位排名比绝对分数更直观——“AI 的推理能力处于人类第 95 百分位”比”AI 在推理基准上得了 87 分”更有意义
抵抗 benchmark hacking：如果一个 AI 在某项测试上得分超高但人类分布也很广，那百分位排名会给出更合理的评估

评估缺口与 Kaggle Hackathon

框架提出后面临的最大挑战是：10 项认知能力中有 5 项（Learning、Metacognition、Attention、Executive Function、Social Cognition）目前缺乏适合评估 AI 的工具。

这些缺口不是偶然的，它们揭示了一个深层模式：AI 当前较强的能力（推理、生成、感知）恰好是容易用标准化测试评估的能力，而 AI 较弱或难以判断的能力恰好是我们不知道怎么测的。 这可能意味着我们对 AI 进展的乐观评估存在系统性偏差——我们能测的都测了，测不了的就假装不重要。

为了解决评估缺口，DeepMind 发起了 Kaggle Hackathon，总奖金 $200K：

项目	详情
赛道设置	5 个赛道，分别对应 5 个缺口能力
每赛道奖金	$10K x 2 名获胜者 =$ 20K / 赛道，共 $100K
最佳整体奖	$25K x 4 名 =$ 100K
提交周期	2026-03-17 至 2026-04-16
目标	社区协作设计针对 5 项缺口能力的 AI 评估方法

这种”众包评估方法设计”的策略本身就很有意思——承认了单个团队无法解决所有评估问题，转而利用社区的集体智慧。

实验结果

这篇论文本质上是一个方法论框架提案，而非传统的实验论文。它没有报告具体的 AI 评估数字（因为评估工具本身还在构建中），但提供了关于评估现状的重要发现。

评估工具成熟度分析

论文对 10 项认知能力的现有评估工具进行了系统盘点：

认知能力	评估工具成熟度	代表性评估方法	主要挑战
Perception	高	视觉识别、语音识别基准	具身感知难以评估
Generation	高	文本/图像生成质量评估	质量判断的主观性
Reasoning	高	GPQA, ARC, LogiQA 等	模式匹配 vs 真正推理
Memory	中	长上下文评估、needle-in-a-haystack	缺乏情景记忆测试
Problem Solving	中	ARC-AGI, 数学竞赛	新颖性难保证
Learning	低	Few-shot 评估（不充分）	无法排除预训练记忆
Metacognition	低	Calibration 测试（不充分）	形式 vs 实质难以区分
Attention	低	几乎没有	AI 没有”注意力资源”概念
Executive Function	低	Agent 评估（初步）	认知科学范式迁移困难
Social Cognition	低	ToM 测试（容易被 hack）	文本推理 vs 真正社会认知

关键发现

评估工具成熟度与 AI 表现呈正相关：AI 在有成熟评估工具的能力上表现较好（推理、生成、感知），在缺乏评估工具的能力上表现不明或较差。这可能是一个因果关系——好的评估工具驱动了能力改进，也可能是一个观察偏差——我们只看到了能测的部分。
5 项评估缺口能力具有共同特征：它们都涉及自反性（self-referential）或动态性（dynamic）认知过程。Metacognition 是关于认知的认知；Learning 是随时间变化的能力获取；Attention 是资源的动态分配；Executive Function 是对行为的高层控制；Social Cognition 是关于他人认知的认知。这些能力的共同点是它们不能被还原为单一任务上的表现。
现有 AGI 基准的覆盖面严重不足：即使把所有现有的 AI 评估基准加在一起，也只覆盖了 10 项认知能力中的约一半。我们对 AI 进展的评估存在重大盲区。

复现评估

维度	评分(1-5)	详细说明
数据可得性	N/A	框架论文，不涉及特定数据集
代码可得性	N/A	框架论文，不涉及特定实现
框架可操作性	3/5	三阶段协议清晰，但 5 项缺口能力的评估方法仍待开发
认知科学基础	4/5	10 项能力分类有坚实的认知心理学文献支撑
实际影响力	4/5	Kaggle Hackathon 可能产出有价值的评估工具；框架本身可引导领域关注

复现/应用建议： 这不是一篇需要”复现”的论文，而是一个需要”参与建设”的框架。对于研究者，最有价值的参与方式是：(1) 参加 Kaggle Hackathon，为 5 项缺口能力设计评估方法；(2) 在现有的认知科学实验范式基础上，设计适合 AI 系统的改编版本。

批判性分析

认知科学方法与 AI 能力之间的张力

这篇论文最根本的假设是：人类认知科学的框架适用于评估 AI 系统。 这个假设值得仔细审视。

认知科学的 10 项能力分类是基于对人类大脑的研究得出的——人类的认知架构由进化塑造，有特定的模块化结构（如视觉皮层、前额叶皮层、海马体等）。这些”能力”在人类身上是由不同的神经基础支撑的，彼此有一定的独立性。

但 AI 系统（尤其是 LLM）的架构与人类大脑完全不同。LLM 没有独立的”注意力模块”和”记忆模块”——所有能力都涌现于同一个 Transformer 架构。在这种情况下，用人类的认知分类来切割 AI 的能力，是否会导致不自然的划分？

一个具体的例子：认知科学区分”注意力”和”工作记忆”，因为在人类大脑中它们有不同的神经基础。但在 LLM 中，这两者都体现在 context window 的处理方式上——强行将它们分开评估可能没有意义。

反论： 框架的支持者可能会说，评估的目标不是理解 AI 的内部机制，而是评估 AI 的外在表现是否达到”通用智能”的标准。从功能主义（functionalism）的角度看，只要 AI 在这 10 项能力上都达到人类水平，我们就可以认为它具有通用智能——无论其内部实现是否与人类相同。

这个争论没有简单的答案，但它指向了一个更深层的问题：AGI 的定义到底是”像人类一样智能”还是”以某种方式实现通用智能”？ DeepMind 的框架隐含地选择了前者。

与其他 AGI 测量尝试的比较

vs. Levels of AGI (DeepMind, 2023)

DeepMind 2023 年发表的 “Levels of AGI” 论文提出了一个不同的框架：按能力水平将 AGI 分为 5 级（Emerging, Competent, Expert, Virtuoso, Superhuman），并区分 Narrow AGI 和 General AGI。

维度	Levels of AGI (2023)	Cognitive Taxonomy (2026)
核心问题	AGI 有几个级别？	AGI 需要哪些能力，怎么测？
评估维度	单一的”能力水平”轴	10 个独立的认知能力维度
人类锚点	定性对比（如”专家水平”）	定量对比（人类百分位分布）
可操作性	较低（分级标准模糊）	较高（有具体的评估协议）
覆盖面	广泛但笼统	具体但有缺口

两个框架是互补而非矛盾的。Levels of AGI 回答”AGI 长什么样”，Cognitive Taxonomy 回答”怎么知道到了没有”。

vs. ARC-AGI (Chollet)

Francois Chollet 的 ARC-AGI 是另一个重要的 AGI 测量尝试，其核心理念是测试”抽象推理和泛化能力”——不依赖预训练知识，纯粹测试推理。

维度	ARC-AGI	Cognitive Taxonomy
哲学基础	算法信息论 / 泛化能力	认知心理学 / 能力分类
测试范围	聚焦于问题解决和推理	覆盖 10 项认知能力
人类基线	有	作为核心设计原则
局限	只测认知能力的一个子集	5 项能力缺乏评估工具

ARC-AGI 可以被视为 Cognitive Taxonomy 框架中”Problem Solving”维度的一个具体实现。Cognitive Taxonomy 的优势在于它的全面性——它指出仅仅测试推理和问题解决是不够的，还需要评估元认知、社会认知等更”软”的能力。

Jensen Huang 的 “AGI 已实现” vs. DeepMind 的 “我们连怎么测都不知道”

这个时间上的巧合（几乎同期出现）构成了一个极具讽刺意味的对比：

Jensen Huang 的立场代表了一种实用主义/商业视角：如果 AI 能做到过去只有人类能做的事情（写代码、做研究、分析数据），那它就是 AGI。这是一个基于任务表现的定义。

DeepMind 的框架代表了一种科学视角：通用智能不仅仅是能完成一系列任务，而是具备一组底层认知能力。更重要的是，我们目前连评估这些能力的工具都不完善。

这个分歧揭示了 AGI 讨论中一个根本性的问题：AGI 到底是一个工程目标还是一个科学概念？ 如果是工程目标（“造出能做 X 的系统”），那 Jensen 可能是对的——我们越来越接近了。如果是科学概念（“理解和复现通用智能”），那 DeepMind 的论文告诉我们，我们还在非常早期的阶段。

局限性

人类中心主义偏差：框架完全基于人类认知科学，可能排除了人类不具备但 AI 可能拥有的”智能形式”。例如，AI 在超大规模信息处理、精确数值计算等方面远超人类——这些能力在人类认知分类中没有对应项，但可能对”通用智能”有贡献。
10 项能力的独立性假设：框架隐含地假设这 10 项能力可以独立评估。但在人类认知中，这些能力高度交互——推理依赖工作记忆，问题解决需要执行功能，社会认知涉及元认知。独立评估可能遗漏了能力间协同（synergy）的重要维度。
百分位映射的有效性问题：将 AI 表现映射到人类分布的前提是 AI 和人类在同一任务上的表现具有可比性。但 AI 的错误模式与人类完全不同——AI 可能在人类认为简单的项目上失败，在人类认为困难的项目上成功。简单的百分位映射可能掩盖这些质的差异。
评估缺口可能是根本性的：5 项缺乏评估工具的能力（Learning、Metacognition、Attention、Executive Function、Social Cognition）可能不只是”我们还没找到好的测试方法”，而是这些能力在非具身、非社会化的 AI 系统中根本不存在——它们可能需要与环境的持续交互和社会嵌入才能涌现。如果是这样，Kaggle Hackathon 设计出的”评估方法”可能只能测到这些能力的表面模拟，而非真正的认知能力。
缺乏经验验证：作为一个纯框架论文，它提出的三阶段协议尚未在实践中验证。协议的可操作性、评估结果的一致性和稳定性都是未知数。

改进方向

多层次评估：不仅评估单项能力，还评估能力间的组合和协同。例如，设计需要同时运用推理和元认知的任务——“在推理过程中监控自己的不确定性”。
纵向评估：不仅在一个时间点评估 AI，而是追踪 AI 在训练过程中认知能力的发展轨迹——这与人类发展心理学的方法类似。
超越人类锚点：在以人类为锚点的同时，也需要考虑 AI 可能具有的人类没有的”认知能力”，避免框架的人类中心主义限制。
与 AI 安全评估的整合：认知能力评估与安全评估之间存在天然联系——元认知能力强的 AI 可能更安全（因为它”知道自己不知道什么”），社会认知强的 AI 可能更容易对齐。

独立观察

“测量问题”本身的价值：在一个充斥着”AGI 来了/没来”二元争论的环境中，这篇论文做了一件更重要的事——它指出了我们的测量工具的不足。正如物理学中”测量精度决定了理论进步的上限”，AI 领域的评估方法可能正在成为理解和推进通用智能的瓶颈。
Kaggle Hackathon 的战略意义：$200K 的奖金不是很多（相对于 AI 领域的资金规模），但这个 hackathon 的真正价值在于它将”评估方法设计”从一个被忽视的学术问题提升为一个社区参与的工程问题。如果产出了有价值的评估工具，其影响远超奖金本身。
认知科学与 AI 的双向价值：这个框架不仅对 AI 评估有价值，对认知科学本身也有价值。用 AI 系统作为”认知模型”来测试认知科学理论，可能揭示哪些认知能力是信息处理的通用特征（AI 也具备），哪些是生物特异性的（AI 不具备）。
对 AGI 时间表预测的冷静效应：如果这个框架被广泛接受，它可能对当前过热的 AGI 时间表预测产生降温效果。“我们连 5 项核心认知能力的评估方法都没有”这个事实，比任何论证都更有力地说明了 AGI 讨论中存在的认知盲区。

对领域的影响

短期： Kaggle Hackathon 将产出一批针对 Learning、Metacognition、Attention、Executive Function 和 Social Cognition 的 AI 评估方法。即使这些方法不完美，它们也将填补当前评估体系的重大空白。

中期： 如果三阶段评估协议被广泛采用，AI 领域的评估范式可能从”跑 benchmark 比分数”转向”认知能力画像”——每个 AI 系统有一个 10 维的认知能力雷达图，而非单一的排行榜分数。这对模型开发方向的引导作用可能是深远的。

长期： 这篇论文可能标志着 AI 评估方法论从”工程导向”向”科学导向”转型的开始。当 AI 系统在越来越多的任务上接近或超越人类时，基于任务表现的评估将失去区分度——我们需要更深层次的评估框架来理解 AI 到底是在”模拟智能”还是在”实现智能”。Cognitive Taxonomy 为这个方向提供了一个起点。

速查卡
核心 Insight
为什么这个时间点很重要？
方法详解
10 项核心认知能力
三阶段评估协议
评估缺口与 Kaggle Hackathon
实验结果
评估工具成熟度分析
关键发现
复现评估
批判性分析
认知科学方法与 AI 能力之间的张力
与其他 AGI 测量尝试的比较
Jensen Huang 的 “AGI 已实现” vs. DeepMind 的 “我们连怎么测都不知道”
局限性
改进方向
独立观察
对领域的影响

Measuring Progress Toward AGI: A Cognitive Taxonomy

Measuring Progress Toward AGI: A Cognitive Taxonomy

速查卡

核心 Insight

为什么这个时间点很重要？

方法详解

10 项核心认知能力

1. Perception（感知）

2. Generation（生成）

3. Attention（注意力）

4. Learning（学习）

5. Memory（记忆）

6. Reasoning（推理）

7. Metacognition（元认知）

8. Executive Function（执行功能）

9. Problem Solving（问题解决）

10. Social Cognition（社会认知）

三阶段评估协议

阶段一：认知任务套件评估

阶段二：收集人类基线数据

阶段三：将 AI 表现映射到人类分布

评估缺口与 Kaggle Hackathon

实验结果

评估工具成熟度分析

关键发现

复现评估

批判性分析

认知科学方法与 AI 能力之间的张力

与其他 AGI 测量尝试的比较

vs. Levels of AGI (DeepMind, 2023)

vs. ARC-AGI (Chollet)

Jensen Huang 的 “AGI 已实现” vs. DeepMind 的 “我们连怎么测都不知道”

局限性

改进方向

独立观察

对领域的影响