XSkill:多模态 Agent 的双流持续学习框架——经验与技能的统一积累
XSkill:多模态 Agent 的双流持续学习框架——经验与技能的统一积累
论文:XSkill: Continual Learning from Experience and Skills in Multimodal Agents
作者:主要来自 NUS/清华等(具体见论文),ICML 投稿
一句话:XSkill 解耦了 Agent 的两种可复用知识——行动级”经验”和任务级”技能”——并通过视觉锚定的提取、对比性批评和分层合并,使冻结的多模态大模型无需训练即可持续学习,在工具使用、搜索和推理任务上平均提升 2.58–6.71 分。
一、这篇论文在解决什么问题
1.1 背景
多模态大语言模型(MLLM)已经能够操控多种工具——代码执行、网络搜索、图像分析。但在开放式任务中,当前 Agent 面临两个根本瓶颈:
- 工具使用效率低:简单问题花太多步骤,复杂问题又探索不够深——Agent 不会”从经验中学习”何时用哪个工具
- 工具编排僵化:大部分系统只走单路径执行,无法灵活组合工具应对不同任务——Agent 缺少可复用的”工作流模板”
人类通过两种知识解决这个问题:经验(“上次这种情况我用了旋转图片,效果很好”)和技能(“处理模糊图片的标准流程是:增强→裁剪→识别”)。但现有多模态 Agent 没有统一机制来积累和使用这两种知识。
1.2 核心问题
如何让冻结的多模态 Agent 在不更新参数的前提下,从历史执行轨迹中持续积累行动级经验和任务级技能,并在新任务中检索、适配和使用这些知识?
二、方法:怎么解决的
2.1 核心 Insight
XSkill 的关键洞察是:Agent 的可复用知识天然分为两个互补层次,需要不同的提取和使用策略。
- 经验(Experience):短小精悍的行动级知识,形式为
(触发条件, 推荐动作)。例如:“当图片中文字模糊时→先用 OCR 增强再识别”。存储在 JSON 格式的 Experience Bank 中,通过语义向量检索。 - 技能(Skill):结构化的任务级工作流文档,包含元数据、工作流步骤和可复用代码模板。例如:“图像内容识别流程 = [预处理→目标检测→文字识别→结果汇总]“。存储为 Markdown 文档的 Skill Library。
两者的关系:技能提供宏观的”怎么做”,经验提供微观的”注意什么”。技能告诉你用什么流程处理,经验告诉你在流程中每一步的陷阱和技巧。
2.2 技术细节
XSkill 的架构分两个阶段:
graph TB
subgraph "Phase I: 知识积累"
A[多路径 Rollout] --> B[视觉锚定的 Rollout 总结]
B --> C[跨 Rollout 对比批评]
C --> D[技能片段 ΔK + 经验更新 ΔE]
D --> E[分层合并与质量控制]
E --> F[Skill Library K + Experience Bank E]
end
subgraph "Phase II: 知识使用"
G[新测试任务] --> H[任务分解检索]
H --> I[视觉上下文适配]
I --> J[注入 Agent Prompt]
J --> K[执行并记录使用历史]
K -->|反馈| A
end
Phase I:知识积累
Step 1: 多路径 Rollout + 视觉锚定总结
对每个训练任务,执行 N 次独立 rollout 得到轨迹集 。关键创新是 视觉锚定(visually grounded) 的总结——不只看文本 trace,还分析每一步的截图,记录”什么视觉证据驱动了什么决策”。
Step 2: 跨 Rollout 对比批评(Cross-Rollout Critique)
比较成功和失败轨迹的差异,找出因果因素:
输出结构化的经验更新操作 。每条经验被约束在 字以内,确保精炼。
Step 3: 分层合并(Hierarchical Consolidation)
对经验:新经验入库前检查是否有余弦相似度超过 的已有条目,有则合并。库超过 时自动删除低质量条目。
对技能:片段融入全局文档,文档超过 时触发精炼——移除过于具体的细节,替换为可复用占位符。
Phase II:知识使用
任务分解检索: 将测试任务分解为 个抽象子任务,每个子任务独立检索最相关的经验和技能。这比直接用原始 query 检索效果好得多。
视觉上下文适配: 检索到的知识不是直接注入——先根据当前任务的图像,用 MLLM 重写经验和适配技能,使其与当前视觉上下文匹配。
非命令式注入: 将适配后的知识注入 system prompt,但以”参考建议”而非”必须遵循”的方式,让 Agent 保持灵活性。
2.3 设计亮点对比
| 设计选择 | XSkill 的做法 | 之前工作的做法 | 为什么更好 |
|---|---|---|---|
| 知识形式 | 双流(经验+技能) | 单流(只有经验或只有 skill) | 覆盖宏观和微观两个决策层次 |
| 知识锚定 | 视觉锚定 | 纯文本 trace | 多模态任务中视觉信号是关键决策依据 |
| 知识提取 | 跨轨迹对比 | 单轨迹总结 | 对比成功/失败才能找到因果关系 |
| 知识管理 | 分层合并+质量控制 | 无限增长 | 控制库大小和检索噪声 |
| 模型分离 | exec 和 kb 用不同模型 | 同一模型 | 可以用更强的模型管理知识库 |
三、实验结果
3.1 实验设置
- 五个 Benchmark: 覆盖视觉工具使用、多模态搜索、综合多模态推理
- 四个骨干模型: 包括不同能力级别的 MLLM
- 基线: Tool-only baseline(无学习)、Experience-only、Skill-only、以及其他 learning-based 方法
3.2 主要结果
XSkill 在所有骨干模型和 benchmark 上一致且显著地超越基线:
- Average@4 提升 2.58–6.71 分(相对 tool-only baseline)
- 最大单项提升 11.13 分(在挑战性设置上 vs 最强基线)
- 跨模型迁移有效:用模型 A 积累的知识可以提升模型 B 的表现
关键数字解读:
- 2.58–6.71 分的提升在多模态推理任务上是显著的——这些任务本身正确率往往在 60-80% 范围
- 11.13 分的最大提升出现在需要复杂工具组合的场景,说明技能流的工作流模板确实在帮助 Agent 做更好的 planning
3.3 消融实验
论文做了详尽的消融分析,关键发现:
- 经验和技能的互补性: 单独使用经验或技能都有提升,但两者结合提升最大。经验主要提升”工具选择正确率”,技能主要提升”多步规划成功率”
- 视觉锚定的必要性: 去掉视觉锚定(只用文本 trace 提取知识),性能显著下降——特别是在需要视觉判断的任务上
- 跨 Rollout 对比的价值: 只用成功轨迹提取知识 vs 成功+失败对比提取,后者明显更好
- 零样本泛化: 在未见过的任务类型上仍有效,说明提取的知识具有泛化性
四、复现与落地评估
4.1 复现难度评估
| 维度 | 评级 | 说明 |
|---|---|---|
| 代码开源 | ⚠️ | ICML 投稿阶段,预计录用后开源 |
| 数据可得性 | ✅ | 使用公开 benchmark,无私有数据 |
| 算力需求 | 中-高 | 需要两个 MLLM 实例(exec + kb),多路径 rollout 成本较高 |
| 依赖复杂度 | 中 | 向量检索库、Markdown/JSON 知识库管理、多 rollout 调度 |
| 复现总评 | ⭐⭐⭐ |
4.2 工业落地可行性
- 适用场景: 企业级多模态 AI 助手、客服 Agent 的知识积累、AutoGPT 类自主 Agent 的持续改进
- 性能开销: 主要成本在知识积累阶段(多 rollout + MLLM 分析),推理阶段只增加检索和 prompt 注入的开销
- 集成难度: 知识库是 Markdown + JSON 文件,与现有 Agent 框架的集成相对容易——OpenClaw 的 AGENTS.md/MEMORY.md 体系就是一个简化版的类似架构
- 风险点: 知识质量强烈依赖 的能力——如果 kb 模型不够强,提取的知识可能有噪声
- 落地总评: ⭐⭐⭐
五、SOTA 对照矩阵
| 方法 | 核心思路 | 知识形式 | 是否需要训练 | 跨模型迁移 | 优势 | 劣势 |
|---|---|---|---|---|---|---|
| XSkill | 双流经验+技能 | 经验(JSON) + 技能(MD) | ❌ | ✅ | 互补知识、视觉锚定、跨模型 | 多 rollout 成本高 |
| ExpeL | 经验学习 | 经验列表 | ❌ | ❌ | 简单直接 | 缺少任务级规划知识 |
| Voyager | 技能库 | 代码技能 | ❌ | ❌ | 适合游戏/代码 | 不适合多模态 |
| Anthropic Skills | 技能文档 | Markdown | ❌ | ❌ | 工业级实现 | 无自动积累机制 |
| 标准 RAG | 检索增强 | 文档片段 | ❌ | ❌ | 通用 | 知识未结构化 |
XSkill 的位置:首次在多模态 Agent 中统一了行动级经验和任务级技能的双流学习,并通过视觉锚定解决了多模态场景中知识提取的”视觉-语义鸿沟”。 是 Agent 持续学习方向的重要进展。
六、讨论与局限
6.1 论文自身讨论的局限
- 实验在”单次积累-测试”循环中验证,真正的持续学习需要多轮迭代
- 知识库管理的超参数(合并阈值、容量上限)对不同任务域可能需要调优
- 与 Anthropic(2026)的 skill 系统做了类比但缺少直接对比
6.2 我的额外观察
-
知识冲突问题未讨论。 当经验库中出现矛盾条目(“遇到模糊图片应该增强”vs”增强会引入伪影,应该直接降分辨率”),XSkill 的合并机制能否正确处理?
-
与 RLHF/RL 的关系。 XSkill 是 training-free 的——用 prompt injection 代替参数更新。但这也意味着它的知识是”建议”而非”内化”,Agent 可能不稳定地遵循。与 ExeVRM 这样的 RL reward model 结合,先用 XSkill 积累知识,再用 RL 将知识内化到参数中,可能是更完整的路径。
-
多路径 Rollout 的成本。 每个训练任务执行 N 次 rollout,这在 API 调用成本上可能很高。论文未讨论 N 的最优值和 cost-performance tradeoff。
-
OpenClaw 的联系。 OpenClaw 的 AGENTS.md + SOUL.md + memory/ 体系本质上就是 XSkill 的简化版——SOUL.md ≈ L0 skill document,memory/ ≈ experience bank,AGENTS.md ≈ meta-skill。XSkill 提供了将这个体系系统化和自动化的理论基础。
七、对我们的启示
谁应该关注这篇论文?
- 构建 AI Agent 产品的工程师(特别是多模态场景)
- 研究 Agent 记忆和知识管理的研究者
- 做 Agent 框架(LangChain/LlamaIndex/OpenClaw)的开发者
核心 Takeaway:
- Agent 知识的双流模型是对的。 经验和技能服务于不同的决策层次,不能混为一谈
- 视觉锚定是多模态 Agent 学习的关键。 纯文本 trace 在多模态场景中信息不足
- 跨 Rollout 对比 >> 单 Rollout 总结。 失败和成功的对比才能提取因果知识
- 知识管理需要主动维护。 无限增长的知识库会引入噪声,需要合并、精炼和质量控制
- Training-free 学习是可行的。 在模型冻结的前提下,仅通过外部知识管理就能实现持续改进
实践建议:
- 在你的 Agent 系统中区分”经验”和”技能”的存储——前者是 JSON 列表(触发条件+动作),后者是结构化文档(工作流+模板)
- 实现一个简单的 experience dedup 机制——新经验入库前用余弦相似度检查是否已有类似条目
- 定期审查知识库质量,移除与实际表现不符的经验(XSkill 论文的 consolidation 思路)
核心四要素
| 要素 | 内容 |
|---|---|
| 根本问题 | 多模态 Agent 缺少 training-free 的持续学习机制:工具使用效率低、编排僵化,且现有知识提取方法无法处理视觉-语义鸿沟。 |
| 切入视角 | 将可复用知识解耦为互补的两个层次——行动级经验(tactical)和任务级技能(strategic),并用视觉锚定而非纯文本来提取和检索知识。 |
| 关键方法 | 双流框架:(1) 多路径 rollout + 跨轨迹对比批评提取知识;(2) 分层合并控制知识库质量;(3) 任务分解检索 + 视觉上下文适配注入。 |
| 核心发现 | 在五个 benchmark 和四个骨干模型上,双流学习一致提升 2.58–6.71 分(最高 11.13 分),且两个知识流的贡献是互补的、可跨模型迁移的。 |
方法公式化
XSkill = (多路径 Rollout × 视觉锚定批评 → 经验 + 技能) + 分层合并 + 任务分解检索适配注入
最终双重总结
一句话总结(核心价值): XSkill 通过将多模态 Agent 的可复用知识解耦为行动级经验和任务级技能双流,配合视觉锚定的跨轨迹批评和分层知识管理,使冻结模型在无需训练的前提下实现了持续学习,跨五个 benchmark 和四个骨干模型一致提升 2.58–6.71 分。
一句话总结(大白话版): 就像一个新手厨师既要积累”盐放多了怎么补救”这种小经验,又要学会”做红烧肉的标准流程”这种大技能——XSkill 让 AI 助手同时积累这两种知识,下次遇到类似问题就越做越好。
论文速查卡
| 项目 | 内容 |
|---|---|
| 标题 | XSkill: Continual Learning from Experience and Skills in Multimodal Agents |
| 作者 | 多机构合作 |
| 链接 | arXiv:2603.12056 |
| 发表 | ICML 2026 投稿(预印本) |
| 一句话总结 | 双流框架统一行动级经验和任务级技能,使冻结多模态 Agent 实现 training-free 持续学习 |
| 大白话版 | AI 助手同时记”小窍门”和”标准流程”,做事越来越熟练 |
| 核心数字 | Average@4 提升 2.58–6.71 分,最大单项提升 11.13 分 |
| 复现评级 | ⭐⭐⭐ |
| 落地评级 | ⭐⭐⭐ |