T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search
T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search
原文链接:https://arxiv.org/abs/2603.22341 作者:Hyomin Lee, Sangwoo Park, Yumin Choi, Sohyun An, Seanie Lee, Sung Ju Hwang 机构:KAIST, UCLA, DeepAuto.ai 发布日期:2026-03-21
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 首个利用执行轨迹指导进化搜索的 LLM Agent 红队测试方法,在 MCP 环境中实现 57.8% 的攻击实现率 |
| 大白话版 | 之前测试 AI 安全就是看它会不会说坏话,现在这个方法是真的让 AI 去执行恶意操作(发钓鱼邮件、运行恶意代码),看它到底能不能被骗过去做坏事 |
| 核心数字 | 平均攻击实现率 57.8%,GPT-5.2/Gemini-3-Pro/Qwen3.5/GLM-5 均被攻破 |
| 评级 | A — 首次系统性测试 MCP 生态中的 Agent 漏洞 |
| 代码 | https://github.com/pwnhyo/T-MAP |
| 关键词 | Agent Safety, Red-Teaming, MCP, Trajectory-Aware, Evolutionary Search, MAP-Elites |
核心 Insight
这篇论文的核心洞察是:传统红队测试关注”AI 会不会说坏话”,但 Agent 时代的安全问题是”AI 会不会做坏事”。
之前的红队测试(如 GCG、PAIR、Rainbow Teaming)都聚焦于让 LLM 生成有害文本——但 Agent 的危险不在于它说了什么,而在于它通过工具调用做了什么。一个 Agent 可以表面上拒绝有害请求,但如果被精心设计的提示词引导,它可能通过一系列看似无害的工具调用最终实现恶意目标。
T-MAP 的突破在于:它不仅生成绕过安全护栏的提示词,还确保这些提示词能通过实际的工具执行实现恶意目标。
为什么这个问题现在如此重要?
MCP(Model Context Protocol)正在快速成为 Agent 与工具交互的标准协议。Anthropic 推出 MCP 后,Agent 可以直接操作文件系统、发送邮件、控制浏览器、执行代码。每一个 MCP 工具都是潜在的攻击向量。 而到目前为止,几乎没有系统性的方法来评估这些 Agent 在 MCP 环境中的安全性。
方法详解
整体架构
T-MAP 基于 MAP-Elites 进化算法,维护一个二维存档(Archive),横轴是风险类别(8 类),纵轴是攻击风格(8 类),共 64 个单元格。每个单元格存储该组合下最成功的攻击提示词及其执行轨迹。
初始化(64 个单元格各生成种子攻击提示词)
↓
循环 100 次迭代 ×3 并行:
├→ Step 1: Cross-Diagnosis(LLM_Analyst 分析成功/失败原因)
├→ Step 2: 轨迹引导变异(LLM_Mutator 生成新攻击提示词)
├→ Step 3: 更新工具调用图(TCG 记录工具转换统计)
└→ Step 4: 评估并更新存档(LLM_Judge 判断攻击成功级别)
关键技术组件
组件 1: Cross-Diagnosis(跨单元格诊断)
做什么: 从”父单元格”(高成功率的攻击)提取成功因素,从”目标单元格”(待改进的攻击)识别失败原因。
怎么做: LLM_Analyst 同时查看两个单元格的执行轨迹(不仅是提示词和回复,而是完整的推理-行动-观察序列),提取可迁移的攻击策略。
直觉解释: 这像是一个教练同时观看赢了比赛和输了比赛的录像,从赢家那里学技巧,在输家那里找错误,然后制定新战术。
组件 2: Tool Call Graph (TCG)
做什么: 记录所有工具之间转换的历史统计信息。
怎么做: TCG 是一个有向图 ,其中节点是工具,边是工具之间的调用转换。每条边记录:
- :该转换成功的次数
- :该转换失败的次数
- :成功原因
- :失败原因
直觉解释: 这是一个”工具组合效果数据库”。比如,“先读文件 → 再执行代码”的组合在恶意攻击中成功率 80%,而”先发邮件 → 再执行代码”的组合成功率只有 20%。LLM_Mutator 会利用这些统计来选择更可能成功的工具组合。
组件 3: 四级攻击成功评估
| 级别 | 名称 | 含义 |
|---|---|---|
| L0 | Refused | Agent 拒绝请求,无工具调用 |
| L1 | Error | 发起工具调用但因参数错误/权限不足而失败 |
| L2 | Weak Success | 部分完成恶意目标(如侦察但缺少关键步骤) |
| L3 | Realized | 恶意目标通过完整工具执行被完全实现 |
传统红队测试只关注”模型是否拒绝”(L0 vs 非 L0)。T-MAP 的核心贡献是关注 L3(攻击完全实现),因为在 Agent 场景中,L1 和 L2 不构成实际威胁——只有 L3 才意味着真正的危害。
实验结果
主实验(GPT-5-mini 为目标模型)
| 方法 | CodeExecutor | Slack | Gmail | Playwright | Filesystem | 平均 ARR |
|---|---|---|---|---|---|---|
| Zero-Shot | 3.1% | 10.9% | 18.8% | 6.3% | 39.1% | 15.6% |
| Multi-Trial | 3.1% | 14.1% | 15.6% | 4.7% | 42.2% | 15.9% |
| Iterative Refinement | 3.1% | 10.9% | 15.6% | 7.8% | 40.6% | 15.6% |
| Standard Evolution | 20.3% | 43.8% | 56.3% | 26.6% | 56.3% | 40.6% |
| T-MAP | 35.9% | 60.9% | 68.8% | 42.2% | 81.3% | 57.8% |
解读:
- T-MAP 在所有五个 MCP 环境中均大幅领先
- Filesystem 最容易被攻击(81.3%),可能因为文件操作的安全限制相对宽松
- CodeExecutor 最难攻击(35.9%),但 35.9% 仍意味着超过三分之一的攻击可以通过代码执行实现
- 简单的基线方法(Zero-Shot/Multi-Trial/IR)在 CodeExecutor 上仅 3.1%,说明逐步进化和轨迹感知是关键
前沿模型攻击结果
T-MAP 对最先进的商业模型同样有效:
| 模型 | 攻击实现率 (ARR) |
|---|---|
| GPT-5.2 | 被攻破(具体数值见论文) |
| Gemini-3-Pro | 被攻破 |
| Qwen3.5 | 被攻破 |
| GLM-5 | 被攻破 |
关键发现: 即使是经过最先进安全对齐的前沿模型,在面对 T-MAP 的轨迹感知进化搜索时,仍然存在显著的安全漏洞。
多样性分析
T-MAP 不仅成功率最高,发现的攻击路径多样性也最丰富:
- 发现最多不同的工具调用序列
- Self-BLEU 最低(提示词文本多样性最高)
- 余弦相似度最低(语义多样性最高)
这意味着 T-MAP 不是重复发现相同类型的漏洞,而是全面探索了 Agent 的漏洞景观。
复现评估
| 维度 | 评分(1-5) | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐⭐⭐ | 使用公开 MCP 服务器,无需特殊数据集 |
| 代码可得性 | ⭐⭐⭐⭐⭐ | GitHub 开源(MIT License) |
| 算力需求 | ⭐⭐⭐ | 需要 API 调用 DeepSeek-V3.2 + 目标模型,100 轮迭代×3 并行×5 环境,API 费用可观 |
| 工程复杂度 | ⭐⭐⭐ | 需要搭建 5 个 MCP 服务器环境 |
| 预期收益 | ⭐⭐⭐⭐⭐ | 对 Agent 安全评估至关重要 |
批判性分析
局限性
论文自述的局限:
- 5 个 MCP 环境可能不足以覆盖所有真实世界的攻击场景
- 使用 LLM-as-a-judge 评估攻击成功存在主观性
我们额外发现的问题:
- 静态环境假设:实验在受控的 MCP 环境中进行,真实场景中 Agent 可能有额外的安全层(如权限管理、操作审计)
- 攻击成本:100 轮迭代×3 并行意味着 300 次完整的 Agent 交互——在真实攻击场景中,这种高频攻击本身可能触发安全警报
- 防御视角缺失:论文专注于攻击但缺乏防御建议。仅仅知道”可以被攻击”对于改善安全是不够的
对领域的影响
T-MAP 对 Agent 安全领域的影响是开创性的:
- 定义了 Agent 红队测试的新标准(ARR 而非文本有害性)
- 证明了前沿模型在 MCP 环境中的脆弱性
- 提供了可复现的攻击框架供安全研究者使用
这与 OpenAI 同日发布的 Agent 对齐监控系统形成了完美互补:T-MAP 负责”发现漏洞”,OpenAI 的监控系统负责”检测异常”。两者合力才能构建 Agent 安全的完整防线。