Measuring Progress Toward AGI: A Cognitive Taxonomy
Measuring Progress Toward AGI: A Cognitive Taxonomy
原文链接:https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/ 作者:Ryan Burnell et al. 机构:Google DeepMind 发布日期:2026-03-17
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 基于认知科学提出 10 项核心认知能力分类和三阶段评估协议,系统化衡量 AI 向 AGI 的进展 |
| 大白话版 | 与其争论”AGI 来了没有”,不如先搞清楚”通用智能到底需要哪些能力、怎么测”——DeepMind 从认知科学借了一套框架,列出 10 项关键认知能力,并发现其中 5 项我们连怎么测都不知道 |
| 核心数字 | 10 项认知能力 / 三阶段评估协议 / 5 项能力缺乏评估工具 / Kaggle Hackathon $200K 总奖金 / 5 个赛道 |
| 评级 | B+ — 方法论贡献远大于实验贡献。首次系统性地将认知科学方法引入 AGI 评估,但框架本身尚未产生经验性结果 |
| 代码 | 暂无(框架/方法论论文) |
| 关键词 | AGI Measurement, Cognitive Taxonomy, Cognitive Science, Evaluation Framework, Human Baseline, Metacognition, Social Cognition |
核心 Insight
“我们甚至还没有测量 AGI 的工具”——这本身就是一个重要的科学发现。
AI 领域关于 AGI 的讨论长期陷入一种奇特的困境:一方面,Jensen Huang 在 Lex Fridman 播客上宣称”我们已经实现了 AGI”;另一方面,学术界对 AGI 的定义和测量标准始终含糊不清。这篇论文的核心洞察不是”AGI 还有多远”,而是一个更基本的问题:我们目前根本没有科学的方法来回答这个问题。
DeepMind 团队做了一件看似简单但实际上非常根本性的事情:他们回到认知科学——研究人类智能的学科——去寻找”通用智能”的操作性定义。这产生了一个关键的范式转换:
从”AI 能做什么任务”转向”AI 具备什么认知能力”。
传统的 AI 评估(包括 MMLU、HumanEval、ARC-AGI 等)本质上是任务导向的——模型能解数学题吗?能写代码吗?能推理吗?但任务表现并不等同于底层认知能力。一个模型可能通过模式匹配在数学基准上得高分,但完全不具备”推理”这个认知能力。
认知科学提供了一个不同的视角:人类智能不是”能做什么任务”的清单,而是一组可组合的认知能力(cognitive abilities)。通用智能的本质是这些能力的协同运作。DeepMind 的框架试图将这种理解迁移到 AI 评估中。
为什么这个时间点很重要?
2023 年 DeepMind 发表过 “Levels of AGI” 论文,提出了 AGI 的分级框架(从 Emerging AGI 到 Artificial Superintelligence)。但那篇论文主要关注”能力水平”的分级,没有回答”用什么具体方法来测量”的问题。这篇论文是那个工作的自然延续——从”定义级别”到”设计测量工具”。
同时,AI 能力的快速提升使得这个问题变得紧迫。当 GPT-5、Gemini 3、Claude 等模型在越来越多的任务上接近或超越人类水平时,我们需要一个比”跑 benchmark”更深刻的评估框架来理解:这些模型到底在哪些维度上接近人类智能,又在哪些维度上存在根本性的差距?
方法详解
10 项核心认知能力
DeepMind 团队从认知科学文献中提炼出 10 项被广泛认为是通用智能基础的认知能力。这不是一个任意的清单,而是基于认知心理学数十年研究积累的”认知架构”共识。
1. Perception(感知)
定义: 处理和解释感觉输入(视觉、听觉、触觉等),将原始信号转化为有意义的内部表征。
AI 现状: 这是 AI 相对较强的领域。视觉模型(CLIP、多模态 LLM)已经在很多感知任务上接近甚至超越人类。但值得注意的是,AI 的”感知”与人类感知有本质区别——AI 缺乏具身性(embodiment),其感知不与行动和环境交互耦合。
评估工具现状: 相对成熟。计算机视觉和语音识别领域有大量标准化评估方法。
2. Generation(生成)
定义: 产生连贯、有意义的输出——文本、图像、代码、语音等。
AI 现状: 当前 LLM 和生成式模型的核心能力。从 GPT 系列到 Diffusion 模型,生成能力的进步是近几年 AI 革命的主要驱动力。
评估工具现状: 相对成熟,但评估”生成质量”本身仍有很大争议(参考 LLM-as-Judge 的各种偏差研究)。
3. Attention(注意力)
定义: 从大量输入中选择性地聚焦于相关信息,抑制无关干扰。
AI 现状: Transformer 架构的核心就是”注意力机制”,但这里说的是认知科学意义上的注意力——不仅是信息的加权聚合,还包括注意力的灵活分配、持续注意、分散注意等复杂模式。当前 AI 的”注意力”是被训练固化的模式,而非真正的动态资源分配。
评估工具现状: 缺乏。这是 5 个评估缺口之一。认知科学中有成熟的注意力测试(如 Stroop 任务、视觉搜索范式),但这些测试直接迁移到 AI 评估时意义不明确——AI 没有”注意力资源”的概念。
4. Learning(学习)
定义: 从经验中获取新知识,适应新环境,积累能力。
AI 现状: 当前 LLM 主要通过预训练(静态学习)和 in-context learning(有限的动态学习)来体现学习能力。但真正意义上的”从少量经验中持续学习”仍然是一个未解决的问题。Few-shot learning、meta-learning 等方向取得了进展,但距离人类的学习灵活性还有很大差距。
评估工具现状: 缺乏。这是 5 个评估缺口之一。核心困难在于:如何区分”模型已经在预训练中见过类似数据”和”模型真正学到了新东西”?
5. Memory(记忆)
定义: 存储和检索信息,包括短期工作记忆和长期记忆。
AI 现状: LLM 的 context window 可以类比为”工作记忆”,RAG 系统可以类比为”外部长期记忆”。但人类记忆的核心特征——情景记忆(episodic memory)、语义网络的动态重组、遗忘曲线等——在当前 AI 中没有对应物。
评估工具现状: 有一定基础(如 needle-in-a-haystack 测试、长上下文评估),但与认知科学中的记忆模型对接不足。
6. Reasoning(推理)
定义: 逻辑推断、演绎、归纳、类比等从已知信息推导新结论的能力。
AI 现状: 这是近两年 AI 进步最显著的领域之一。Chain-of-thought prompting、o1/o3 系列的 reasoning token 等技术大幅提升了 LLM 的推理表现。但”推理”到底是真正的逻辑推导还是基于统计模式的近似,学术界仍有激烈争论。
评估工具现状: 相对成熟。GPQA、GSM8K、ARC、LogiQA 等基准提供了推理能力的多维评估。
7. Metacognition(元认知)
定义: 对自身认知过程的监控和调控——“知道自己知道什么”、“知道自己不知道什么”、“知道何时需要改变策略”。
AI 现状: 这可能是当前 AI 最弱的能力之一。LLM 的”幻觉”问题本质上就是元认知缺失的体现——模型不知道自己不知道。虽然有些技术(如 calibration、self-consistency)在一定程度上模拟了元认知,但这些都是外部施加的机制,而非模型内生的自我监控能力。
评估工具现状: 缺乏。这是 5 个评估缺口之一。核心困难:如何区分”模型真的在监控自身认知”和”模型被训练成输出’我不确定’这类文本”?
8. Executive Function(执行功能)
定义: 高级认知控制能力,包括计划(planning)、抑制(inhibition)、任务切换(task switching)。
AI 现状: AI Agent 领域正在快速发展(AutoGPT、Claude Code、Devin 等),这些系统体现了一定程度的计划和任务管理能力。但与人类的执行功能相比,AI Agent 在灵活应对计划偏差、在多个目标间动态权衡等方面仍有明显不足。
评估工具现状: 缺乏。这是 5 个评估缺口之一。认知科学中有成熟的执行功能测试(如 Wisconsin Card Sorting Test、Tower of London),但如何设计对 AI 有意义的等价测试是一个开放问题。
9. Problem Solving(问题解决)
定义: 面对新颖问题时的分解、探索和解决能力。
AI 现状: ARC-AGI 等基准专门测试这个维度。当前 AI 在结构化问题上表现不错,但在真正新颖的、需要范式突破的问题上仍然困难。
评估工具现状: 有一定基础。ARC-AGI 是这个方向最有影响力的评估工具,但它主要关注视觉-空间推理,覆盖面有限。
10. Social Cognition(社会认知)
定义: 理解他人的心理状态(Theory of Mind)、意图、情感,进行社会推理和交互。
AI 现状: LLM 在一些 Theory of Mind 测试上表现不错(如 Sally-Anne 测试),但这些测试主要依赖文本推理,而非真正的社会认知。真正的社会认知涉及非语言线索的解读、文化背景的理解、社会规范的把握等更复杂的能力。
评估工具现状: 缺乏。这是 5 个评估缺口之一。现有的 Theory of Mind 测试大多可以通过文本模式匹配”解决”,而非真正测试社会认知能力。
三阶段评估协议
DeepMind 提出的评估方法论不是简单地给 AI 跑基准测试,而是一个以人类为锚点的系统化协议:
阶段一:认知任务套件评估
对目标 AI 系统在针对每项认知能力设计的任务套件上进行评估。这些任务套件应该来自认知科学中已有的实验范式,而非 AI 领域自行设计的 benchmark。
关键原则: 任务应该测试底层认知能力,而非任务特定的技能。例如,测试”推理”不应该用数学题(因为模型可能记住了解题模式),而应该用需要推理能力但不依赖特定知识的新颖任务。
阶段二:收集人类基线数据
在相同的任务套件上收集人类参与者的表现数据,建立人类基线分布。
关键原则: 不是简单地比较”平均人类 vs AI”,而是要建立完整的人类表现分布——包括不同年龄、教育背景、专业领域的人群。这使得评估结果可以回答”AI 在这项能力上处于人类什么水平”这样的分层问题。
阶段三:将 AI 表现映射到人类分布
将 AI 在每项认知能力上的表现定位到人类分布中——“这个 AI 的注意力能力处于人类第几百分位?”
核心创新点: 这种以人类分布为锚点的方法有两个重要优势:
- 可解释性强:百分位排名比绝对分数更直观——“AI 的推理能力处于人类第 95 百分位”比”AI 在推理基准上得了 87 分”更有意义
- 抵抗 benchmark hacking:如果一个 AI 在某项测试上得分超高但人类分布也很广,那百分位排名会给出更合理的评估
评估缺口与 Kaggle Hackathon
框架提出后面临的最大挑战是:10 项认知能力中有 5 项(Learning、Metacognition、Attention、Executive Function、Social Cognition)目前缺乏适合评估 AI 的工具。
这些缺口不是偶然的,它们揭示了一个深层模式:AI 当前较强的能力(推理、生成、感知)恰好是容易用标准化测试评估的能力,而 AI 较弱或难以判断的能力恰好是我们不知道怎么测的。 这可能意味着我们对 AI 进展的乐观评估存在系统性偏差——我们能测的都测了,测不了的就假装不重要。
为了解决评估缺口,DeepMind 发起了 Kaggle Hackathon,总奖金 $200K:
| 项目 | 详情 |
|---|---|
| 赛道设置 | 5 个赛道,分别对应 5 个缺口能力 |
| 每赛道奖金 | 20K / 赛道,共 $100K |
| 最佳整体奖 | 100K |
| 提交周期 | 2026-03-17 至 2026-04-16 |
| 目标 | 社区协作设计针对 5 项缺口能力的 AI 评估方法 |
这种”众包评估方法设计”的策略本身就很有意思——承认了单个团队无法解决所有评估问题,转而利用社区的集体智慧。
实验结果
这篇论文本质上是一个方法论框架提案,而非传统的实验论文。它没有报告具体的 AI 评估数字(因为评估工具本身还在构建中),但提供了关于评估现状的重要发现。
评估工具成熟度分析
论文对 10 项认知能力的现有评估工具进行了系统盘点:
| 认知能力 | 评估工具成熟度 | 代表性评估方法 | 主要挑战 |
|---|---|---|---|
| Perception | 高 | 视觉识别、语音识别基准 | 具身感知难以评估 |
| Generation | 高 | 文本/图像生成质量评估 | 质量判断的主观性 |
| Reasoning | 高 | GPQA, ARC, LogiQA 等 | 模式匹配 vs 真正推理 |
| Memory | 中 | 长上下文评估、needle-in-a-haystack | 缺乏情景记忆测试 |
| Problem Solving | 中 | ARC-AGI, 数学竞赛 | 新颖性难保证 |
| Learning | 低 | Few-shot 评估(不充分) | 无法排除预训练记忆 |
| Metacognition | 低 | Calibration 测试(不充分) | 形式 vs 实质难以区分 |
| Attention | 低 | 几乎没有 | AI 没有”注意力资源”概念 |
| Executive Function | 低 | Agent 评估(初步) | 认知科学范式迁移困难 |
| Social Cognition | 低 | ToM 测试(容易被 hack) | 文本推理 vs 真正社会认知 |
关键发现
-
评估工具成熟度与 AI 表现呈正相关:AI 在有成熟评估工具的能力上表现较好(推理、生成、感知),在缺乏评估工具的能力上表现不明或较差。这可能是一个因果关系——好的评估工具驱动了能力改进,也可能是一个观察偏差——我们只看到了能测的部分。
-
5 项评估缺口能力具有共同特征:它们都涉及自反性(self-referential)或动态性(dynamic)认知过程。Metacognition 是关于认知的认知;Learning 是随时间变化的能力获取;Attention 是资源的动态分配;Executive Function 是对行为的高层控制;Social Cognition 是关于他人认知的认知。这些能力的共同点是它们不能被还原为单一任务上的表现。
-
现有 AGI 基准的覆盖面严重不足:即使把所有现有的 AI 评估基准加在一起,也只覆盖了 10 项认知能力中的约一半。我们对 AI 进展的评估存在重大盲区。
复现评估
| 维度 | 评分(1-5) | 详细说明 |
|---|---|---|
| 数据可得性 | N/A | 框架论文,不涉及特定数据集 |
| 代码可得性 | N/A | 框架论文,不涉及特定实现 |
| 框架可操作性 | 3/5 | 三阶段协议清晰,但 5 项缺口能力的评估方法仍待开发 |
| 认知科学基础 | 4/5 | 10 项能力分类有坚实的认知心理学文献支撑 |
| 实际影响力 | 4/5 | Kaggle Hackathon 可能产出有价值的评估工具;框架本身可引导领域关注 |
复现/应用建议: 这不是一篇需要”复现”的论文,而是一个需要”参与建设”的框架。对于研究者,最有价值的参与方式是:(1) 参加 Kaggle Hackathon,为 5 项缺口能力设计评估方法;(2) 在现有的认知科学实验范式基础上,设计适合 AI 系统的改编版本。
批判性分析
认知科学方法与 AI 能力之间的张力
这篇论文最根本的假设是:人类认知科学的框架适用于评估 AI 系统。 这个假设值得仔细审视。
认知科学的 10 项能力分类是基于对人类大脑的研究得出的——人类的认知架构由进化塑造,有特定的模块化结构(如视觉皮层、前额叶皮层、海马体等)。这些”能力”在人类身上是由不同的神经基础支撑的,彼此有一定的独立性。
但 AI 系统(尤其是 LLM)的架构与人类大脑完全不同。LLM 没有独立的”注意力模块”和”记忆模块”——所有能力都涌现于同一个 Transformer 架构。在这种情况下,用人类的认知分类来切割 AI 的能力,是否会导致不自然的划分?
一个具体的例子:认知科学区分”注意力”和”工作记忆”,因为在人类大脑中它们有不同的神经基础。但在 LLM 中,这两者都体现在 context window 的处理方式上——强行将它们分开评估可能没有意义。
反论: 框架的支持者可能会说,评估的目标不是理解 AI 的内部机制,而是评估 AI 的外在表现是否达到”通用智能”的标准。从功能主义(functionalism)的角度看,只要 AI 在这 10 项能力上都达到人类水平,我们就可以认为它具有通用智能——无论其内部实现是否与人类相同。
这个争论没有简单的答案,但它指向了一个更深层的问题:AGI 的定义到底是”像人类一样智能”还是”以某种方式实现通用智能”? DeepMind 的框架隐含地选择了前者。
与其他 AGI 测量尝试的比较
vs. Levels of AGI (DeepMind, 2023)
DeepMind 2023 年发表的 “Levels of AGI” 论文提出了一个不同的框架:按能力水平将 AGI 分为 5 级(Emerging, Competent, Expert, Virtuoso, Superhuman),并区分 Narrow AGI 和 General AGI。
| 维度 | Levels of AGI (2023) | Cognitive Taxonomy (2026) |
|---|---|---|
| 核心问题 | AGI 有几个级别? | AGI 需要哪些能力,怎么测? |
| 评估维度 | 单一的”能力水平”轴 | 10 个独立的认知能力维度 |
| 人类锚点 | 定性对比(如”专家水平”) | 定量对比(人类百分位分布) |
| 可操作性 | 较低(分级标准模糊) | 较高(有具体的评估协议) |
| 覆盖面 | 广泛但笼统 | 具体但有缺口 |
两个框架是互补而非矛盾的。Levels of AGI 回答”AGI 长什么样”,Cognitive Taxonomy 回答”怎么知道到了没有”。
vs. ARC-AGI (Chollet)
Francois Chollet 的 ARC-AGI 是另一个重要的 AGI 测量尝试,其核心理念是测试”抽象推理和泛化能力”——不依赖预训练知识,纯粹测试推理。
| 维度 | ARC-AGI | Cognitive Taxonomy |
|---|---|---|
| 哲学基础 | 算法信息论 / 泛化能力 | 认知心理学 / 能力分类 |
| 测试范围 | 聚焦于问题解决和推理 | 覆盖 10 项认知能力 |
| 人类基线 | 有 | 作为核心设计原则 |
| 局限 | 只测认知能力的一个子集 | 5 项能力缺乏评估工具 |
ARC-AGI 可以被视为 Cognitive Taxonomy 框架中”Problem Solving”维度的一个具体实现。Cognitive Taxonomy 的优势在于它的全面性——它指出仅仅测试推理和问题解决是不够的,还需要评估元认知、社会认知等更”软”的能力。
Jensen Huang 的 “AGI 已实现” vs. DeepMind 的 “我们连怎么测都不知道”
这个时间上的巧合(几乎同期出现)构成了一个极具讽刺意味的对比:
Jensen Huang 的立场代表了一种实用主义/商业视角:如果 AI 能做到过去只有人类能做的事情(写代码、做研究、分析数据),那它就是 AGI。这是一个基于任务表现的定义。
DeepMind 的框架代表了一种科学视角:通用智能不仅仅是能完成一系列任务,而是具备一组底层认知能力。更重要的是,我们目前连评估这些能力的工具都不完善。
这个分歧揭示了 AGI 讨论中一个根本性的问题:AGI 到底是一个工程目标还是一个科学概念? 如果是工程目标(“造出能做 X 的系统”),那 Jensen 可能是对的——我们越来越接近了。如果是科学概念(“理解和复现通用智能”),那 DeepMind 的论文告诉我们,我们还在非常早期的阶段。
局限性
-
人类中心主义偏差:框架完全基于人类认知科学,可能排除了人类不具备但 AI 可能拥有的”智能形式”。例如,AI 在超大规模信息处理、精确数值计算等方面远超人类——这些能力在人类认知分类中没有对应项,但可能对”通用智能”有贡献。
-
10 项能力的独立性假设:框架隐含地假设这 10 项能力可以独立评估。但在人类认知中,这些能力高度交互——推理依赖工作记忆,问题解决需要执行功能,社会认知涉及元认知。独立评估可能遗漏了能力间协同(synergy)的重要维度。
-
百分位映射的有效性问题:将 AI 表现映射到人类分布的前提是 AI 和人类在同一任务上的表现具有可比性。但 AI 的错误模式与人类完全不同——AI 可能在人类认为简单的项目上失败,在人类认为困难的项目上成功。简单的百分位映射可能掩盖这些质的差异。
-
评估缺口可能是根本性的:5 项缺乏评估工具的能力(Learning、Metacognition、Attention、Executive Function、Social Cognition)可能不只是”我们还没找到好的测试方法”,而是这些能力在非具身、非社会化的 AI 系统中根本不存在——它们可能需要与环境的持续交互和社会嵌入才能涌现。如果是这样,Kaggle Hackathon 设计出的”评估方法”可能只能测到这些能力的表面模拟,而非真正的认知能力。
-
缺乏经验验证:作为一个纯框架论文,它提出的三阶段协议尚未在实践中验证。协议的可操作性、评估结果的一致性和稳定性都是未知数。
改进方向
-
多层次评估:不仅评估单项能力,还评估能力间的组合和协同。例如,设计需要同时运用推理和元认知的任务——“在推理过程中监控自己的不确定性”。
-
纵向评估:不仅在一个时间点评估 AI,而是追踪 AI 在训练过程中认知能力的发展轨迹——这与人类发展心理学的方法类似。
-
超越人类锚点:在以人类为锚点的同时,也需要考虑 AI 可能具有的人类没有的”认知能力”,避免框架的人类中心主义限制。
-
与 AI 安全评估的整合:认知能力评估与安全评估之间存在天然联系——元认知能力强的 AI 可能更安全(因为它”知道自己不知道什么”),社会认知强的 AI 可能更容易对齐。
独立观察
-
“测量问题”本身的价值:在一个充斥着”AGI 来了/没来”二元争论的环境中,这篇论文做了一件更重要的事——它指出了我们的测量工具的不足。正如物理学中”测量精度决定了理论进步的上限”,AI 领域的评估方法可能正在成为理解和推进通用智能的瓶颈。
-
Kaggle Hackathon 的战略意义:$200K 的奖金不是很多(相对于 AI 领域的资金规模),但这个 hackathon 的真正价值在于它将”评估方法设计”从一个被忽视的学术问题提升为一个社区参与的工程问题。如果产出了有价值的评估工具,其影响远超奖金本身。
-
认知科学与 AI 的双向价值:这个框架不仅对 AI 评估有价值,对认知科学本身也有价值。用 AI 系统作为”认知模型”来测试认知科学理论,可能揭示哪些认知能力是信息处理的通用特征(AI 也具备),哪些是生物特异性的(AI 不具备)。
-
对 AGI 时间表预测的冷静效应:如果这个框架被广泛接受,它可能对当前过热的 AGI 时间表预测产生降温效果。“我们连 5 项核心认知能力的评估方法都没有”这个事实,比任何论证都更有力地说明了 AGI 讨论中存在的认知盲区。
对领域的影响
短期: Kaggle Hackathon 将产出一批针对 Learning、Metacognition、Attention、Executive Function 和 Social Cognition 的 AI 评估方法。即使这些方法不完美,它们也将填补当前评估体系的重大空白。
中期: 如果三阶段评估协议被广泛采用,AI 领域的评估范式可能从”跑 benchmark 比分数”转向”认知能力画像”——每个 AI 系统有一个 10 维的认知能力雷达图,而非单一的排行榜分数。这对模型开发方向的引导作用可能是深远的。
长期: 这篇论文可能标志着 AI 评估方法论从”工程导向”向”科学导向”转型的开始。当 AI 系统在越来越多的任务上接近或超越人类时,基于任务表现的评估将失去区分度——我们需要更深层次的评估框架来理解 AI 到底是在”模拟智能”还是在”实现智能”。Cognitive Taxonomy 为这个方向提供了一个起点。