Esc
输入关键词开始搜索
News

HyperAgents

HyperAgents

原文链接:https://arxiv.org/abs/2603.19461 作者:Jenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina 机构:University of British Columbia, Vector Institute, University of Edinburgh, NYU, FAIR at Meta, Meta Superintelligence Labs 发布日期:2026-03-23

速查卡

项目内容
一句话总结将任务智能体和元智能体合并为一个可编辑程序,实现”改进自身改进能力”的元认知自修改
大白话版想象一个程序员不仅能写更好的代码,还能改进自己”写代码的方法”——HyperAgents 就是这样一个能同时优化解题策略和自我改进策略的 AI 系统
核心数字论文审稿测试集 71.0%(从 0 起步);机器人奖励设计 0.372(超越直接优化基线);跨领域迁移 imp@50 = 0.630
评级A — 在 AI 自我改进这一核心问题上提出了理论清晰、实验扎实的通用框架
代码https://github.com/facebookresearch/Hyperagents(开源)
关键词Self-Improvement, Metacognition, Darwin Gödel Machine, Open-Ended Exploration, Self-Referential, Quality-Diversity

核心 Insight

这篇论文的核心洞察非常深刻:现有的自我改进系统都依赖于一个固定的、人工设计的”改进机制”,这本身就构成了改进的瓶颈

之前的方法是什么样的?以 Darwin Gödel Machine (DGM) 为代表——一个编程智能体不断生成自身的修改版本,保留表现更好的变体。这在编程任务上效果很好,因为”评估任务”(写代码)和”自我修改任务”(也是写代码)恰好对齐。但这个对齐假设在非编程领域不成立:一个擅长写论文审稿的 AI,并不一定擅长修改自己的审稿代码。

HyperAgents 提出了什么不同的思路?将任务智能体(Task Agent,负责解题)和元智能体(Meta Agent,负责修改智能体)合并为一个可编辑程序(Hyperagent)。关键在于:元智能体本身也是可编辑的。这意味着系统不仅能改进”怎么解题”,还能改进”怎么改进解题”——论文称之为元认知自修改(Metacognitive Self-Modification)。

为什么这个想法 work?

从第一性原理来看,这解决了自我改进系统中的”无限回归”问题。传统方法如果想改进元智能体,就需要一个”元元智能体”,然后又需要”元元元智能体”……HyperAgents 通过自指代(self-referential)设计打破了这个死循环:元智能体修改的对象包含它自己。

用类比来说:这就像一个工匠不仅在改进自己做的产品,还在改进自己的工具、工作流程、甚至改进自己”改进工具”的方法。传统 DGM 就像一个工匠只能改进产品,但工具是固定的。

方法详解

整体架构

DGM-Hyperagents(DGM-H)由两个核心组件构成:

初始 Hyperagent(简单 FM 调用 + 两个工具:bash + 文件编辑)

开放式探索循环(继承自 DGM)
    ├→ 选择父代 Hyperagent(概率正比于性能,反比于成功后代数量)
    ├→ 元认知自修改(Meta Agent 修改整个 Hyperagent 代码,包括自身)
    ├→ 评估新 Hyperagent
    └→ 添加到存档中作为未来改进的踏脚石

关键技术组件

组件 1: Hyperagent 结构

做什么: 将任务智能体和元智能体统一为一个 Python 程序。

怎么做: 一个 Hyperagent 就是一个完整的 Python 仓库,包含:

  • Task Agent:接收任务输入,输出结果(初始版本就是单次 FM 调用)
  • Meta Agent:接收整个仓库代码 + 历史评估结果 + 剩余迭代次数,输出代码修改(diff)
  • 两者共享同一个可编辑的代码库

关键设计: 因为 Python 是图灵完备的,且 Hyperagent 可以编辑任意代码,所以理论上它可以构建任意可计算机器。

组件 2: 元认知自修改

做什么: 允许元智能体修改自身的修改策略。

怎么做: Meta Agent 在生成修改时,不仅可以修改 Task Agent 的代码,也可以修改 Meta Agent 自己的代码。这意味着:

  • 第 1 代:元智能体用初始策略生成修改
  • 第 N 代:元智能体已经进化出了更好的修改策略(如持久记忆、性能追踪)

直觉解释: 这就是为什么叫”元认知”——系统不仅在思考”怎么解题”,还在思考”怎么思考”。

组件 3: 开放式探索(继承自 DGM)

做什么: 维护一个不断增长的 Hyperagent 存档,避免陷入局部最优。

怎么做: 每次迭代从存档中概率选择一个父代 Hyperagent 进行修改,然后把新变体添加回存档。选择概率正比于性能,反比于已成功编译的后代数量——这平衡了利用(exploit)和探索(explore)。

与现有方法的关键区别

维度DGM(原版)DGM-H(本文)为什么更好
元级别机制固定、人工设计可编辑、自动进化不受初始设计瓶颈限制
适用领域仅编程(依赖领域对齐假设)任意可计算任务通用性根本性提升
跨领域迁移无法迁移元级改进可跨领域迁移实现复合改进
自我改进能力间接(通过编程能力提升)直接(修改自身修改策略)改进速度可自加速

实验结果

主实验

论文在四个领域进行了实验:编程(Polyglot)、论文审稿、机器人奖励设计、奥林匹克数学评分。

编程任务(Polyglot)

方法训练集(50 题)测试集(完整)
初始智能体0.1400.084
原版 DGM0.3800.307
DGM-H0.3400.267

解读: DGM-H 在编程领域达到了与专门为编程设计的 DGM 相当的水平,尽管它并非专门为编程定制。

论文审稿 + 机器人奖励设计(联合优化)

方法论文审稿(测试集)机器人奖励设计(测试集)
初始智能体0.0000.060
原版 DGM0.000 (CI: 0.0–0.510)0.000 (CI: 0.0–0.090)
DGM-custom(人工定制)0.590 (CI: 0.570–0.650)0.348 (CI: 0.305–0.385)
DGM-H w/o 自改进0.000 (CI: 0.0–0.130)0.213 (CI: 0.180–0.348)
DGM-H w/o 开放探索0.000 (CI: 0.0–0.560)0.116 (CI: 0.0–0.348)
DGM-H0.710 (CI: 0.590–0.750)0.372 (CI: 0.355–0.436)
静态基线 (AI-Scientist-v2)0.6300.348

解读:

  • 原版 DGM 在非编程领域几乎完全失败(分数为 0),验证了”领域对齐假设”的局限性
  • DGM-H 不仅大幅超越原版 DGM,还超越了人工定制版本 DGM-custom
  • 消融实验证明自改进和开放探索两个组件都不可或缺(p < 0.05)

跨领域迁移实验(最亮眼的结果)

这是论文最惊艳的实验:用在”论文审稿 + 机器人奖励设计”上训练的 Hyperagent,迁移到全新的”奥林匹克数学评分”领域。

方法imp@50(数学评分测试集)
初始 Meta Agent + DGM w/o 自改进0.000
初始 Meta Agent + DGM-H w/o 自改进0.000
迁移 Agent(DGM-custom)+ DGM w/o 自改进0.000
迁移 Hyperagent(DGM-H)+ DGM-H w/o 自改进0.630 (CI: 0.540–0.630)

解读: 从其他领域迁移来的 Hyperagent 在全新领域实现了巨大的改进幅度(0.630),而所有其他方法的 imp@50 都接近 0。这说明 DGM-H 学到的不是特定领域的技巧,而是通用的自我改进能力

复合改进实验

方法数学评分测试集(200 轮后)
DGM-H(从初始智能体开始)0.610 (CI: 0.510–0.680)
DGM-H + 迁移0.640 (CI: 0.550–0.720)
DGM-H + 迁移 + ProofAutoGrader0.700
ProofAutoGrader(静态基线)0.670

解读: 迁移来的自改进能力可以与新领域的持续改进叠加。DGM-H 甚至将 IMO-GradingBench 的强基线 ProofAutoGrader 从 0.561 提升到了 0.601(完整数据集)。

复现评估

维度评分(1-5)详细说明
数据可得性⭐⭐⭐⭐Polyglot 公开;论文审稿数据集基于公开提交;IMO-GradingBench 公开
代码可得性⭐⭐⭐⭐⭐完整开源于 GitHub,包含实验日志
算力需求⭐⭐需要大量 FM API 调用(使用 GPT/Claude/Gemini),100 轮迭代成本不低
工程复杂度⭐⭐⭐框架相对清晰,但需要配置沙箱环境、Docker 容器
预期收益⭐⭐⭐⭐对自动化 AI 研究、自动化软件工程有直接应用价值

复现建议: 代码已完整开源,最实际的路径是先在 Polyglot 编程任务上复现,然后尝试自定义领域。主要成本在 API 调用上。

批判性分析

局限性(论文承认的 + 我们发现的)

论文自述的局限:

  1. 固定任务分布:当前系统在固定的任务集上优化,没有自动生成新任务的能力
  2. 外循环不可修改:父代选择和评估协议仍然是固定的(虽然附录中展示了初步结果)
  3. 统计显著性有限:部分对比的 p 值 > 0.05(如 DGM-H vs DGM-custom)

我们额外发现的问题:

  1. 对基础模型的依赖:整个系统建立在冻结的基础模型之上。如果底层 FM 能力有限,自我改进的天花板也会受限。论文没有讨论当 FM 本身成为瓶颈时会发生什么。
  2. 评估的可靠性:论文审稿任务使用二分类正确率作为指标,但同行评审本身就是高度主观的。一个”更好”的审稿智能体可能只是更好地预测了训练集中的模式,而非真正理解论文质量。
  3. 安全问题的深度不足:虽然论文用了整个 Section 6 讨论安全,但实际措施(沙箱、超时、人工监督)主要是实验层面的。对于真正开放式的自改进系统,这些措施远远不够。

改进方向

  1. 共同进化任务分布: 让系统自动生成越来越难的任务作为训练集,形成”任务-智能体”共同进化。论文也提到了这个方向。
  2. 集成权重更新: 当前系统只修改代码(提示词、工具、逻辑),不修改模型权重。如果能结合微调或在线学习,改进空间会大得多。
  3. 多智能体协作: 当前是单一 Hyperagent 的自我改进。如果多个 Hyperagent 可以协作或竞争,可能会产生更丰富的改进动态。

独立观察

  • 与进化算法的深层联系: HyperAgents 本质上是把元进化(meta-evolution)引入了 FM-based 智能体。这与生物进化中的”进化的可进化性”(evolvability of evolvability)概念高度对应。
  • 对 AI Safety 的启示: 能自我改进的系统意味着能力曲线可能是超线性的。如果 Meta Agent 的改进速度也在加速,那么能力增长可能比预期快得多——这正是 AI 安全社区担忧的”智能爆炸”场景。
  • 实际应用价值: 最直接的应用场景是自动化 AI 研究——让 HyperAgents 自动发现更好的提示词策略、工具使用模式、甚至新的评估方法。

对领域的影响

短期来看,这篇论文为”自我改进 AI”提供了一个实用、可扩展的框架,可能会催生一系列后续工作在更多领域上验证。中期来看,如果元认知自修改的能力确实可以复合积累,我们可能会看到在特定领域(如代码生成、科学发现)出现持续自我改进的 AI 系统。长期来看,这项工作直接指向了一个核心问题:当 AI 系统能够改进自己的改进能力时,我们需要什么样的安全框架?