Esc
输入关键词开始搜索
News

Recursive Multi-Agent Systems 深度解读

Recursive Multi-Agent Systems 深度解读

原文链接:https://arxiv.org/html/2604.25917 arXiv 摘要页:https://arxiv.org/abs/2604.25917 项目页:https://recursivemas.github.io/ 原文标题:Recursive Multi-Agent Systems 作者:Xiyuan Yang、Jiaru Zou、Rui Pan、Ruizhong Qiu、Pan Lu、Shizhe Diao、Jindong Jiang、Hanghang Tong、Tong Zhang、Markus J. Buehler、Jingrui He、James Zou 机构:UIUC、Stanford University、NVIDIA、MIT arXiv 提交日期:2026-04-28 核对说明:已基于论文全文与附录撰写;涉及基线具体数值时仅引用原文表格中明确给出的数据,未对原文未列出的 baseline 数值做臆测补全。

速查卡

项目内容
一句话总结用轻量潜变量接口把多个异构 agent 串成一个“递归回路”,让整个 MAS 像单个递归模型一样整体优化。
大白话版以前多智能体靠“你一句我一句”传文字,慢、贵、难训练;这篇论文改成让 agent 直接传隐藏状态,并把整套协作反复循环几轮,所以系统既更快,也更容易随着递归变强。
核心数字9 个 benchmark;相对最强 baseline 平均准确率 +8.3%;端到端推理 1.2x–2.4x 加速;token 使用减少 34.6%–75.6%。
评级A- — 不是单点技巧,而是在“如何扩展 MAS”这个问题上提出了一个很完整的新范式。
代码论文给出项目页;正文未明确写出代码仓库链接,开源状态以项目页为准。
关键词multi-agent systems、latent recursion、RecursiveLink、heterogeneous agents、credit assignment、recursive training、latent communication、test-time scaling

核心 Insight

这篇论文最重要的洞察是:多智能体系统的“扩展”不一定只能靠增加 agent 数量、提示词工程或更复杂的对话拓扑,还可以像递归语言模型那样,把“整个系统”视为一个可重复展开的统一计算图。换句话说,作者不是把单个 agent 做得更强,而是把“agent 之间如何协作”本身变成一个可递归、可训练、可缩放的计算对象。

过去 MAS 的主流做法基本都建立在文本通信上:Planner 产出文字、Critic 读文字、Solver 再读文字。这样做直观,但有两个老问题。第一,效率差:每轮协作都要经历解码、输出、再编码。第二,训练难:一旦中间通信经过离散 token,梯度就会变弱甚至消失,整个系统很难做端到端的共享 credit assignment。于是很多工作最后只能优化单个 agent,或者只优化 prompt/context,而不是优化“整个协作回路”。

RecursiveMAS 的不同点在于,它把中间通信媒介从 text 改成 latent states,再用一个很轻的 RecursiveLink 把 agent 内部的 latent thought 生成,与 agent 之间的跨模型传递,统一到同一套递归接口里。这样一来,多个 agent 不再只是轮流说话,而是像递归网络中的多层模块一样,被串成一个循环系统,前一轮递归得到的系统状态会直接喂给下一轮递归继续修正。

为什么这个想法 work?

因为它同时解决了 MAS 最难啃的两块骨头:通信成本和系统级优化。

先看通信成本。文本通信本质上需要把隐藏状态投影到词表空间,再采样成 token,再由下一个 agent 重新嵌入回隐藏空间。这个过程多了一个巨大的词表投影开销,而且还会引入离散化损失。潜空间递归则跳过了这一步,直接让一个 agent 的隐藏表示经过轻量映射后送给下一个 agent。

再看训练稳定性。文本递归里的 softmax 在高置信 token 区域会让梯度 Jacobian 接近 0,递归几轮后几乎传不回去。作者的理论分析说明,带残差的 RecursiveLink 在合理初始化下,梯度范数能维持在接近常数的水平。这意味着系统能真正做“整套回路一起学”,而不是每个 agent 各练各的。

可以把它类比成两种团队协作方式:

  • text recursion 像每个成员都必须先写完整报告,下一位再通读并总结,流程清楚但慢,而且信息损耗大;
  • latent recursion 像成员之间直接共享白板上的草稿、结构图和中间状态,外部读者看不懂,但团队内部流转更高效,也更容易连续修改。

方法详解

整体架构

RecursiveMAS 把整个多智能体系统视为一个递归回路。每个 agent 都做两件事:

  1. 在自己内部生成一小段 latent thoughts;
  2. 把这段 latent thoughts 通过跨 agent 的映射,交给下一个 agent 继续处理。

最后一个 agent 在本轮递归结束后,不是立刻输出文本,而是把自己的 latent outputs 再送回第一个 agent,形成闭环。只有在最后一轮递归结束时,最后一个 agent 才真正解码出最终答案。

对应论文图 2,可以用下面的文字结构理解:

问题 x + 各 agent 指令
  → Agent A1: 内部 latent 生成
  → outer RecursiveLink
  → Agent A2: 条件化 latent 生成
  → outer RecursiveLink
  → ...
  → Agent AN: latent 生成
  → 回传到 Agent A1
  → 进入下一轮 recursion
  → 最后一轮由 Agent AN 解码文本答案

这个设计有两个关键点:

  • agent 内部递归:让单个 agent 不只是“一次性出一句话”,而是先在潜空间里展开若干步 latent thinking;
  • agent 之间递归:让整套 MAS 的系统状态能跨轮反复修正,而不是只走一遍固定流水线。

四种 collaboration patterns

论文强调 RecursiveMAS 不是绑定单一 MAS 拓扑,而是支持 4 种常见协作模式:

  1. Sequential Style:Planner → Critic → Solver,适合分步推理。
  2. Mixture Style:Math / Code / Science specialist 并行推理,再由 Summarizer 汇总。
  3. Distillation Style:Expert + Learner,目标是在保留速度优势的同时蒸馏专家能力。
  4. Deliberation Style:Reflector + Tool-Caller,适合带工具调用的反思式协作。

这点很重要,因为它说明作者要解决的不是“某一种 agent workflow 的优化”,而是“递归是否能成为通用 MAS scaling law”的问题。

关键技术组件

做什么: 把某个 agent 当前生成出来的最后层隐藏状态,变成这个 agent 下一步还能继续消费的输入嵌入,从而在 agent 内部进行 latent thoughts generation。

怎么做: 对最后层隐藏向量 h 经过一个两层 MLP + GELU,再加回原向量本身,形成残差映射。它本质上是在学“从输出语义空间回到输入嵌入空间”的轻量桥接器。

关键公式:

Rin(h)=h+W2σ(W1h)\mathcal{R}_{\text{in}}(h)=h+W_2\,\sigma(W_1 h)

其中:

  • hh 是 agent 当前步最后层隐藏状态;
  • W1,W2W_1, W_2 是两层线性层;
  • σ()\sigma(\cdot) 是 GELU;
  • 残差项 hh 负责保留原始语义。

这就是论文公式 (3)。

直觉解释: 如果没有残差,映射层要“完整重写”隐藏表示,容易学不稳;有了残差后,它只需要学习“应该怎么微调才能回到可继续递归的输入分布”。这和 ResNet 的直觉一样:保留主体信息,只拟合 distribution shift。

数值例子:

假设某 agent 的隐藏维度 dh=1024d_h=1024

  • 步骤 1:当前最后层输出一个 hR1024h \in \mathbb{R}^{1024}
  • 步骤 2:W1W_1 把它投影到中间空间,GELU 激活后再经 W2W_2 拉回 1024 维;
  • 步骤 3:把这部分增量加回原始 hh
  • 最终结果:得到一个语义基本不丢、但分布更适合继续作为“下一步输入”的 embedding。

论文把这个过程叫 dense-to-shallow transition:从“深层隐藏状态”回到“浅层输入嵌入”。

做什么: 在不同 agent 之间传递 latent state,尤其用于隐藏维度不同、模型家族不同的异构 agent 连接。

怎么做: 在 Inner Link 的两层映射基础上,再加一条跨维度线性投影 W3W_3,把源 agent 的隐藏状态映射到目标 agent 的输入空间。

关键公式:

Rout(h)=W3h+W2σ(W1h)\mathcal{R}_{\mathrm{out}}(h)=W_3 h+W_2\,\sigma(W_1 h)

其中:

  • W3W_3 负责跨模型、跨维度的主映射;
  • 第二项负责学习更细的语义修正;
  • 相比 inner link,这里的“残差”不再是恒等映射,而是换成了可变换的线性主干。

这就是论文公式 (4)。

直觉解释: 如果两个 agent 维度不同,没法直接做 h+Δhh + \Delta h。所以 outer link 用 W3hW_3 h 代替 identity,让“保留主要语义”与“做少量非线性修正”仍然同时成立。它不是简单 adapter,而是 RecursiveMAS 异构协作成立的核心接口。

数值例子:

假设 Agent A 的隐藏维度是 1536,Agent B 的输入维度是 2048:

  • 步骤 1:W3W_3 先把 hR1536h \in \mathbb{R}^{1536} 投影到 2048 维;
  • 步骤 2:W1,W2W_1, W_2 再学习一个非线性修正项;
  • 步骤 3:两部分相加,得到可被 Agent B 直接消费的条件嵌入。

这就是论文所说的 cross-model transition。

组件 3:系统级递归回路

做什么: 把所有 agent 串成 loop,让整个 MAS 能像递归网络一样多轮 refinement。

怎么做: 对输入问题 xx,第一个 agent 先根据输入与角色指令生成 latent thoughts;之后每个 agent 都消费“自己的上下文 + 前一个 agent 传来的 latent thoughts”;最后一个 agent 的输出再返回给第一个 agent,进入下一轮 recursion。中间轮次不解码文本,只在最后一轮输出答案。

关键机制:

  • 每个 agent 在一轮内部生成长度为 mm 的 latent thoughts;
  • 系统共展开 nn 轮 recursion;
  • rr 轮的系统状态会影响第 r+1r+1 轮的所有 agent。

直觉解释: 普通 MAS 更像一次性的 DAG 流水线;RecursiveMAS 则把它变成 RNN/looped model。前一轮系统犯的错,可以在后一轮由整个协作回路共同修正。

组件 4:两阶段 inner-outer 训练

做什么: 先让每个 agent 学会“在自己内部做 latent thinking”,再让整个系统学会“跨 agent 递归协作”。

怎么做: 训练分两步:

  1. inner loop:逐 agent 训练 inner link,对齐 latent thoughts 与真实答案的输入 embedding;
  2. outer loop:固定 base LLM,只训练 outer links,并把整个系统沿 recursion rounds 展开,用最终答案监督所有 outer links。
4.1 内层训练目标

论文公式 (5):

Lin=1cos(Rin(H),Embθi(y))\mathcal{L}_{\mathrm{in}} = 1 - \cos\big(\mathcal{R}_{\mathrm{in}}(H), \mathrm{Emb}_{\theta_i}(y)\big)

其中:

  • HH 是 agent 生成的 latent thoughts;
  • Embθi(y)\mathrm{Emb}_{\theta_i}(y) 是把 ground-truth 文本 yy 送入 agent 自身 embedding 层得到的目标表示;
  • 目标是让 inner link 生成的 latent 表达,靠近标准文本输入 embedding 的语义分布。

直觉解释: 这一步相当于先教每个 agent:你未来别急着输出 token,请先学会在潜空间里生成“像正确文本 embedding 一样”的中间状态。它是一个 warm start,不是最终任务目标。

4.2 外层训练目标

论文公式 (6):

Lout=CE(S(n)(S(n1)(S(1)(x))),y)\mathcal{L}_{\mathrm{out}} = \mathrm{CE}\Big(\mathcal{S}^{(n)}\big(\mathcal{S}^{(n-1)}(\cdots\mathcal{S}^{(1)}(x))\big), y\Big)

其中:

  • S(r)\mathcal{S}^{(r)} 表示第 rr 轮递归后的系统状态;
  • 最后一轮文本输出与真实答案 yy 做交叉熵损失;
  • 计算图沿整个递归路径保留,使 outer links 共享同一个最终 credit signal。

直觉解释: 这相当于把整个 MAS 当作一个大网络来反向传播。不是单独问 Planner 好不好、Critic 好不好,而是问“这整套循环合作最后有没有把答案做对”,再把责任分回每条跨 agent 的 link。

关键公式总览与解释

Rin(h)=h+W2σ(W1h)\mathcal{R}_{\text{in}}(h)=h+W_2\sigma(W_1 h)

作用:保语义、学小修正、把隐藏状态重新变成可递归输入。

Rout(h)=W3h+W2σ(W1h)\mathcal{R}_{\text{out}}(h)=W_3 h+W_2\sigma(W_1 h)

作用:跨异构 agent 传递 latent state,同时保留主语义与适配目标分布。

公式 (5):inner-loop 对齐损失

Lin=1cos(Rin(H),Embθi(y))\mathcal{L}_{\mathrm{in}} = 1 - \cos\big(\mathcal{R}_{\mathrm{in}}(H), \mathrm{Emb}_{\theta_i}(y)\big)

作用:让 agent 的 latent thoughts 分布靠近“正确答案文本在 embedding 空间中的位置”。

公式 (6):outer-loop 系统损失

Lout=CE(S(n)(S(n1)(S(1)(x))),y)\mathcal{L}_{\mathrm{out}} = \mathrm{CE}\Big(\mathcal{S}^{(n)}\big(\mathcal{S}^{(n-1)}(\cdots\mathcal{S}^{(1)}(x))\big), y\Big)

作用:把整个递归 MAS 视为单个展开计算图,用最终任务监督统一训练。

公式 (7):梯度稳定性结论

Rtext(h)h2O(ϵ)1,R(h)h2Ω(11dhlog1δ)\left\|\frac{\partial \mathcal{R}_{\text{text}}(h)}{\partial h}\right\|_2 \le O(\epsilon) \ll 1, \qquad \left\|\frac{\partial \mathcal{R}(h)}{\partial h}\right\|_2 \ge \Omega\left(1-\sqrt{\frac{1}{d_h}\log\frac{1}{\delta}}\right)

这是论文 Theorem 4.1 对应的核心结论。

含义是:

  • 文本递归里,如果 token 分布很确定,softmax Jacobian 很小,梯度会随递归快速衰减;
  • latent recursion 里的 RecursiveLink 因为带残差,Jacobian 更接近 identity,所以梯度能稳定穿过多轮 recursion。

为什么 latent recursion 比 text recursion 更稳?

这是整篇论文最值得记住的技术论点。

text recursion 的问题不只是慢,而是“难以优化”。如果一个 agent 每轮都必须把隐藏状态投到词表、采样 token、再由下一个 agent 读回来,那么中间实际经过的是离散瓶颈。作者在附录中把这种文本 SFT 式递归近似写成:

Rtext(h)=Winsoftmax(Wouth)\mathcal{R}_{\text{text}}(h)=W_{\text{in}}\operatorname{softmax}(W_{\text{out}}h)

它的梯度核心受 softmax 协方差矩阵控制;当模型很自信时,熵 ϵ\epsilon 很小,梯度范数上界就会接近 O(ϵ)O(\epsilon),于是几轮以后几乎没法传。

latent recursion 更稳,是因为 RecursiveLink 本质上是:

J=I+W2ΣW1J = I + W_2 \Sigma' W_1

也就是“单位映射 + 有界修正”。只要初始化合理、非线性导数有界,整体 Jacobian 就不会远离 1 太多。直白说,文本递归像每次都要穿过一个很窄的门;latent recursion 像沿着一条带扶手的通道前进,信息与梯度都更不容易散掉。

训练策略

论文给出的训练设置相对克制,重点是“冻结 base model,只训练 link”:

  • 数据:来自 4 个来源,分别覆盖数学、医学/科学、代码、工具增强场景:s1K、m1K、OpenCodeReasoning、ARPO-SFT。
  • 数据构造:作者按不同 collaboration pattern 重写 role-specific targets,比如 Sequential 风格里为 Planner、Critic、Solver 分别准备不同监督目标。
  • 优化器:AdamW。
  • 学习率:5e-4。
  • 调度:cosine scheduler。
  • batch size:4。
  • 最大序列长度:4096 tokens。
  • 训练参数:冻结所有 LLM agent 参数,只更新 inner/outer RecursiveLink。
  • 推理温度:大多数推理任务 0.6,代码任务 0.2,top-p 0.95。
  • 推理长度:MATH500 2000;MedQA、GPQA、LiveCodeBench、MBPP+ 为 4000;AIME2025/2026 为 16000。
  • 实验硬件:H100 和 A100 GPU。

值得注意的是,这个方案把“训练整个 MAS”降维成“训练一层很薄的连接器”,所以它比 LoRA 或 Full-SFT 更像一种系统接口学习,而不是模型本体微调。

与现有方法的关键区别

维度之前的方法本文方法为什么更好
通信媒介多数 MAS 用显式文本传递直接传递 latent states避免反复 decode / re-encode,速度更快、token 更省
优化对象优化单个 agent、prompt 或文本反馈优化整个递归协作回路真正学到“系统级协作”,而不是局部补丁
递归位置通常只在单模型内部递归在整个多 agent 系统级递归扩展的是 collaboration depth,而不仅是 model depth
异构性支持文字虽然通用,但端到端难训练用 outer RecursiveLink 连接不同模型族与维度保留异构组合优势,同时可统一训练
训练稳定性文本中介导致梯度衰减残差式 latent link 保持稳定梯度更适合多轮递归训练

实验结果

Benchmark 设置

论文总共评估了 9 个 benchmark:

  1. MATH500
  2. AIME2025
  3. AIME2026
  4. GPQA-Diamond
  5. MedQA
  6. LiveCodeBench-v6
  7. MBPP Plus
  8. HotpotQA
  9. Bamboogle

覆盖数学、科学、医学、代码生成与搜索问答。注意:主表 Table 2 主要展示了 7 个核心任务,其中代码任务按 Light/Scaled 分别落在 MBPP+ 与 LiveCodeBench;HotpotQA 与 Bamboogle 主要出现在 deliberation-style 的附录结果中。

主实验

先看论文在递归深度 r=3r=3 时,与更广泛 baseline 的整体对比。以下表格完全取自原文 Table 3 中明确列出的数值。

方法MATH500AIME2025AIME2026GPQA-DLiveCodeBenchMedQA
Single Agent (w/ LoRA)83.170.073.362.037.476.1
Single Agent (w/ Full-SFT)83.273.376.762.838.677.0
Mixture-of-Agents (MoA)79.860.063.347.627.057.5
TextGrad84.973.376.762.539.877.2
LoopLM84.666.763.348.124.956.4
Recursive-TextMAS85.873.373.361.638.777.0
RecursiveMAS88.086.786.766.242.979.3

解读:

  • 论文明确声称:RecursiveMAS 相对“每个 benchmark 上最强 baseline”平均提升 8.3%。
  • 提升最大的是高强度推理任务,尤其是 AIME2025 和 AIME2026,说明递归协作更像是在补 reasoning depth,而不是简单补常识记忆。
  • 相比 TextGrad、MoA、LoopLM,这个方法的优势在于同时抓住了两件事:系统级协作与 latent-space recursion;只做其一都不够。

递归深度带来的性能与效率变化

论文 Table 2 还展示了 RecursiveMAS 与 Recursive-TextMAS 在不同 recursion round 下的对比。这里不逐格抄 12 列主表,而提炼最关键的论文结论:

递归轮数平均准确率提升(相对 Recursive-TextMAS)平均推理加速token 降幅
r=1原文报告平均 improve 8.1%1.2x34.6%
r=2原文报告平均 improve 19.6%1.9x65.5%
r=3原文报告平均 improve 20.2%2.4x75.6%

这里有两个很强的信号:

  1. 递归加深后,性能没有塌,反而继续提升;
  2. 递归加深后,latent recursion 相对 text recursion 的效率优势还会放大。

这和论文的复杂度分析完全一致:递归越深,文本中间表示反复解码的代价越夸张,而潜空间传递的优势越明显。

不同 collaboration patterns 的泛化结果

作者还验证了 RecursiveMAS 是否只适用于 sequential style。结论是否定的:它在另外三种模式里也有收益。

Mixture Style

原文 Table 7:

方法AIME2026GPQA-DiamondLiveCodeBenchMedQA
Math Specialist43.337.418.929.0
Code Specialist13.326.221.543.3
Science Specialist10.027.07.648.1
RecursiveMAS46.743.023.861.7

论文总结为:相对每个任务上的最强 specialist,平均提升 6.2%。这说明 latent recursion 不是简单选一个最强专家,而是真能做跨专家的信息合成。

Distillation Style

原文 Table 6:

方法AIME2026GPQA-DLiveCodeBenchMBPP+MedQA说明
Expert Model90.072.746.273.486.0最强但最慢
Learner Model76.761.438.467.577.9更快但更弱
RecursiveMAS83.370.040.171.983.0在保留效率优势下向 expert 靠近

论文给出的归纳是:RecursiveMAS 相比 Learner 平均提升 8.0%,同时仍然保有相对 Expert 的 1.5x 端到端速度优势。

Deliberation Style

原文 Table 8:

方法AIME2026GPQA-DiamondHotpotQABamboogle
Reflector76.761.227.540.9
Tool-Caller86.763.139.649.8
RecursiveMAS90.065.041.453.7

论文正文总结为:相对原始 tool-calling agent,平均提升 4.8%。这说明 latent recursion 与工具调用并不冲突,反而能让“反思 agent”和“执行 agent”的协作更紧。

消融实验(Ablation Study)

原文 Table 4:

变体Math500GPQA-DLiveCodeBench说明
1-Layer84.463.240.1最简单线性映射
Res + 1-Layer86.765.341.4加残差后明显提升
2-Layer85.664.540.5仅加深但无残差
Res + 2-Layer(完整方法)88.066.242.9最优

关键发现:

  1. 残差比单纯加深更关键。1-layer 加残差后,甚至比无残差的 2-layer 还强。
  2. 完整方法最优,说明“残差保语义 + 两层非线性修正”两者都有贡献。
  3. 这和理论部分完全吻合:稳定训练不只是参数多,而是要让映射保留 identity-like 通道。

2. Latent thoughts 长度 m

原文 Table 9:

Latent Steps m0163248648096112128
Math50083.384.985.285.686.886.886.586.986.7
GPQA-D61.462.062.863.664.164.264.564.364.4
LiveCodeBench38.140.340.741.442.042.542.242.642.6

关键发现:

  1. 从 m=0 到 m≈80,性能持续上涨,说明 latent thinking 预算确实有用。
  2. m≈80 后基本进入平台期,说明不需要很长的潜变量链条也能形成有效协作。
  3. 这对工程很重要:意味着性能提升不是靠无限拉长隐式 CoT,而是在“适中的 latent budget”里就能见效。

效率分析

论文对效率给出了三类明确信号。

1. 理论复杂度优势

文本式 Recursive MAS:

Θ(N(mVdh+(t+m)dh2+(t+m)2dh))\Theta\big(N(m|V|d_h + (t+m)d_h^2 + (t+m)^2 d_h)\big)

RecursiveMAS:

Θ(N(mdh2+(t+m)dh2+(t+m)2dh))\Theta\big(N(md_h^2 + (t+m)d_h^2 + (t+m)^2 d_h)\big)

区别在于:前者有每步词表投影的 mVdhm|V|d_h,后者把这部分替换成潜空间映射的 mdh2md_h^2。由于实践中 dhVd_h \ll |V|,所以 latent recursion 理论上更省。

2. 推理速度

论文正文明确给出:

  • r=1:平均 1.2x speedup;
  • r=2:平均 1.9x speedup;
  • r=3:平均 2.4x speedup。

3. token 使用

论文正文明确给出:

  • r=1:34.6% token reduction;
  • r=2:65.5% token reduction;
  • r=3:75.6% token reduction。

它背后的原因非常直接:RecursiveMAS 只在最终轮末尾输出文本,而 Recursive-TextMAS 每轮、每个 agent 都要把中间结果显式写成文字。

可扩展性分析

论文的 scaling 结论主要有两层。

第一层是 recursion depth scaling: 随着推理轮数从 1 增加到 3,RecursiveMAS 在准确率、速度优势、token 优势上都持续改善,没有出现常见的“多轮协作后收益递减到几乎为零”的问题。

第二层是 train-time × inference-time 双重 scaling: 论文 Figure 1 上半部分显示,更深的训练递归会把整条性能前沿整体抬高,而更深的推理递归则继续在这条更高前沿上获得 test-time gain。作者将其解释为:训练递归教会系统形成更适合后续 refinement 的 latent states,推理递归再把这种能力继续释放出来。

SOTA / 代表方法对照矩阵

注意:以下矩阵中的“成本”与“是否开源”,仅在论文直接提及处填写;未直接给出者明确标注为“正文未说明”。

方法类别参数/系统形态核心特点开源成本
LoopLM单模型递归单模型 latent recursion扩展单模型推理深度正文未说明正文未说明
TextGrad多智能体优化文本反馈式系统优化用 textual gradients 优化 agent system正文未说明正文未说明
MoA多智能体架构分层 agent 聚合更偏架构集成,而非递归优化正文未说明正文未说明
Recursive-TextMAS文本递归 MAS与本文同结构但走文本通信是最直接的 apples-to-apples baseline论文实现基线推理成本更高
RecursiveMAS潜空间递归 MAS异构 agents + RecursiveLink + inner/outer training把 MAS 整体变成可递归、可训练的 latent computation项目页已给出更优 cost-performance

复现评估

维度评分(1-5)详细说明
数据可得性⭐⭐⭐⭐benchmark 全是公开任务;训练数据来源公开,但作者还做了 role-specific target 重写,这部分需自行重建。
代码可得性⭐⭐⭐有项目页,但正文未明确代码仓库链接;复现便利性取决于项目页后续开放程度。
算力需求⭐⭐⭐推理层面不算离谱,因为只训练 link;但要复现全文多模型、多模式实验,仍需 H100/A100 级资源。
工程复杂度⭐⭐⭐⭐真正难点不在训练,而在异构 agent 编排、latent state 对接、vLLM/HF 双后端以及评测流水线。
预期收益⭐⭐⭐⭐⭐如果你的场景已经在做 MAS,这篇工作给的是非常直接的系统级升级路线:更快、更省 token、还能整体提精度。

复现建议: 最实际的路径不是一次复现全部 4 种 collaboration patterns,而是先从 sequential-style 开始,只做 3 个中小模型 agent,冻结 backbone,仅实现 inner/outer RecursiveLink 与 r=1/2 的训练推理闭环。等验证 latent recursion 能稳定提升后,再扩展到 distillation 或 tool-calling 场景。

批判性分析

局限性(论文承认的 + 我们发现的)

论文自述与正文可见局限:

  1. 主表虽然覆盖多个领域,但 9 个 benchmark 中并不是每个 setting 都完整横向列在一张统一总表里,阅读和对比门槛较高。
  2. 整体方法依赖 latent-space 兼容性,虽然 outer RecursiveLink 已经支持异构模型,但是否能跨更大规模、更多架构差异的 agent 稳定泛化,论文还没有完全展开。

我们额外发现的问题:

  1. 方法强依赖“最后层隐藏状态是好通信介质”这一假设。对 instruction-tuned LLM 来说这通常成立,但不同模型族最后层表征几何并不一致,outer link 是否会在更极端异构条件下失真,值得继续验证。
  2. 训练目标仍然最终靠最后一轮文本答案监督,所以系统能否学到更细粒度的 agent 级分工,仍然部分依赖人工设定 collaboration pattern。
  3. 整篇论文主要证明“latent recursion 优于 text recursion”,但与更强的 cache sharing、 KV communication 或其他 latent communication 框架的对比还不充分。

改进方向

  1. 动态递归深度: 当前 r 多为固定 1/2/3。下一步可以让系统按题目难度自适应决定递归轮数,避免简单问题过度计算。
  2. 更细粒度的 credit assignment: 现在 outer loop 用最终 CE 做统一反馈,未来可以叠加 agent-level 或 round-level auxiliary objectives,让责任归因更清晰。
  3. 更强跨模型接口: RecursiveLink 目前是轻量 MLP/linear 设计,后续可尝试加入 low-rank routing、token-wise gating、或 KV-cache level transfer,提高极端异构场景的对齐能力。

独立观察(论文没说但我们注意到的)

  • 这篇论文某种意义上把 MAS 从“prompt orchestration”推向了“differentiable system design”。如果这个方向继续走下去,多智能体系统可能会越来越像神经网络,而不是越来越像聊天脚本。
  • RecursiveMAS 与传统 ensemble 最大的区别不是 agent 多,而是 agent 之间存在跨轮、可训练的信息循环。这让它更接近 recurrent computation,而不是一次性投票。
  • 如果把这个思路和工具使用、检索、执行环境状态也都 latent 化,未来可能出现“只有最终答案文本化、中间全部隐式协作”的 agent operating system。

对领域的影响

这篇论文最可能带来的中期影响,是把 MAS 研究重点从“怎么设计更花哨的 agent 拓扑”转移到“怎么让整个协作系统像一个可训练模型那样缩放”。

短期看,它给了一个很强的工程结论:文本式 agent 对话不是唯一选择,而且很可能不是效率最优选择。中期看,它把 latent reasoning 的 scaling 逻辑从单模型扩展到了系统级 agent collaboration。长期看,如果这条路线成立,那么未来的 agent 系统可能不会主要通过外显对话来协作,而会越来越多地通过潜表示、缓存、状态和可微接口来协作。