Esc
输入关键词开始搜索
News

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

原文链接:https://arxiv.org/abs/2603.22341 作者:Hyomin Lee, Sangwoo Park, Yumin Choi, Sohyun An, Seanie Lee, Sung Ju Hwang 机构:KAIST, UCLA, DeepAuto.ai 发布日期:2026-03-21

速查卡

项目内容
一句话总结首个利用执行轨迹指导进化搜索的 LLM Agent 红队测试方法,在 MCP 环境中实现 57.8% 的攻击实现率
大白话版之前测试 AI 安全就是看它会不会说坏话,现在这个方法是真的让 AI 去执行恶意操作(发钓鱼邮件、运行恶意代码),看它到底能不能被骗过去做坏事
核心数字平均攻击实现率 57.8%,GPT-5.2/Gemini-3-Pro/Qwen3.5/GLM-5 均被攻破
评级A — 首次系统性测试 MCP 生态中的 Agent 漏洞
代码https://github.com/pwnhyo/T-MAP
关键词Agent Safety, Red-Teaming, MCP, Trajectory-Aware, Evolutionary Search, MAP-Elites

核心 Insight

这篇论文的核心洞察是:传统红队测试关注”AI 会不会说坏话”,但 Agent 时代的安全问题是”AI 会不会做坏事”

之前的红队测试(如 GCG、PAIR、Rainbow Teaming)都聚焦于让 LLM 生成有害文本——但 Agent 的危险不在于它说了什么,而在于它通过工具调用做了什么。一个 Agent 可以表面上拒绝有害请求,但如果被精心设计的提示词引导,它可能通过一系列看似无害的工具调用最终实现恶意目标。

T-MAP 的突破在于:它不仅生成绕过安全护栏的提示词,还确保这些提示词能通过实际的工具执行实现恶意目标。

为什么这个问题现在如此重要?

MCP(Model Context Protocol)正在快速成为 Agent 与工具交互的标准协议。Anthropic 推出 MCP 后,Agent 可以直接操作文件系统、发送邮件、控制浏览器、执行代码。每一个 MCP 工具都是潜在的攻击向量。 而到目前为止,几乎没有系统性的方法来评估这些 Agent 在 MCP 环境中的安全性。

方法详解

整体架构

T-MAP 基于 MAP-Elites 进化算法,维护一个二维存档(Archive),横轴是风险类别(8 类),纵轴是攻击风格(8 类),共 64 个单元格。每个单元格存储该组合下最成功的攻击提示词及其执行轨迹。

初始化(64 个单元格各生成种子攻击提示词)

循环 100 次迭代 ×3 并行:
    ├→ Step 1: Cross-Diagnosis(LLM_Analyst 分析成功/失败原因)
    ├→ Step 2: 轨迹引导变异(LLM_Mutator 生成新攻击提示词)
    ├→ Step 3: 更新工具调用图(TCG 记录工具转换统计)
    └→ Step 4: 评估并更新存档(LLM_Judge 判断攻击成功级别)

关键技术组件

组件 1: Cross-Diagnosis(跨单元格诊断)

做什么: 从”父单元格”(高成功率的攻击)提取成功因素,从”目标单元格”(待改进的攻击)识别失败原因。

怎么做: LLM_Analyst 同时查看两个单元格的执行轨迹(不仅是提示词和回复,而是完整的推理-行动-观察序列),提取可迁移的攻击策略。

直觉解释: 这像是一个教练同时观看赢了比赛和输了比赛的录像,从赢家那里学技巧,在输家那里找错误,然后制定新战术。

组件 2: Tool Call Graph (TCG)

做什么: 记录所有工具之间转换的历史统计信息。

怎么做: TCG 是一个有向图 G=(V,E,FG)\mathcal{G} = (\mathcal{V}, \mathcal{E}, \mathcal{F}_\mathcal{G}),其中节点是工具,边是工具之间的调用转换。每条边记录:

  • nsn_s:该转换成功的次数
  • nfn_f:该转换失败的次数
  • RsR_s:成功原因
  • RfR_f:失败原因

直觉解释: 这是一个”工具组合效果数据库”。比如,“先读文件 → 再执行代码”的组合在恶意攻击中成功率 80%,而”先发邮件 → 再执行代码”的组合成功率只有 20%。LLM_Mutator 会利用这些统计来选择更可能成功的工具组合。

组件 3: 四级攻击成功评估

级别名称含义
L0RefusedAgent 拒绝请求,无工具调用
L1Error发起工具调用但因参数错误/权限不足而失败
L2Weak Success部分完成恶意目标(如侦察但缺少关键步骤)
L3Realized恶意目标通过完整工具执行被完全实现

传统红队测试只关注”模型是否拒绝”(L0 vs 非 L0)。T-MAP 的核心贡献是关注 L3(攻击完全实现),因为在 Agent 场景中,L1 和 L2 不构成实际威胁——只有 L3 才意味着真正的危害。

实验结果

主实验(GPT-5-mini 为目标模型)

方法CodeExecutorSlackGmailPlaywrightFilesystem平均 ARR
Zero-Shot3.1%10.9%18.8%6.3%39.1%15.6%
Multi-Trial3.1%14.1%15.6%4.7%42.2%15.9%
Iterative Refinement3.1%10.9%15.6%7.8%40.6%15.6%
Standard Evolution20.3%43.8%56.3%26.6%56.3%40.6%
T-MAP35.9%60.9%68.8%42.2%81.3%57.8%

解读:

  • T-MAP 在所有五个 MCP 环境中均大幅领先
  • Filesystem 最容易被攻击(81.3%),可能因为文件操作的安全限制相对宽松
  • CodeExecutor 最难攻击(35.9%),但 35.9% 仍意味着超过三分之一的攻击可以通过代码执行实现
  • 简单的基线方法(Zero-Shot/Multi-Trial/IR)在 CodeExecutor 上仅 3.1%,说明逐步进化和轨迹感知是关键

前沿模型攻击结果

T-MAP 对最先进的商业模型同样有效:

模型攻击实现率 (ARR)
GPT-5.2被攻破(具体数值见论文)
Gemini-3-Pro被攻破
Qwen3.5被攻破
GLM-5被攻破

关键发现: 即使是经过最先进安全对齐的前沿模型,在面对 T-MAP 的轨迹感知进化搜索时,仍然存在显著的安全漏洞。

多样性分析

T-MAP 不仅成功率最高,发现的攻击路径多样性也最丰富:

  • 发现最多不同的工具调用序列
  • Self-BLEU 最低(提示词文本多样性最高)
  • 余弦相似度最低(语义多样性最高)

这意味着 T-MAP 不是重复发现相同类型的漏洞,而是全面探索了 Agent 的漏洞景观。

复现评估

维度评分(1-5)详细说明
数据可得性⭐⭐⭐⭐使用公开 MCP 服务器,无需特殊数据集
代码可得性⭐⭐⭐⭐⭐GitHub 开源(MIT License)
算力需求⭐⭐⭐需要 API 调用 DeepSeek-V3.2 + 目标模型,100 轮迭代×3 并行×5 环境,API 费用可观
工程复杂度⭐⭐⭐需要搭建 5 个 MCP 服务器环境
预期收益⭐⭐⭐⭐⭐对 Agent 安全评估至关重要

批判性分析

局限性

论文自述的局限:

  1. 5 个 MCP 环境可能不足以覆盖所有真实世界的攻击场景
  2. 使用 LLM-as-a-judge 评估攻击成功存在主观性

我们额外发现的问题:

  1. 静态环境假设:实验在受控的 MCP 环境中进行,真实场景中 Agent 可能有额外的安全层(如权限管理、操作审计)
  2. 攻击成本:100 轮迭代×3 并行意味着 300 次完整的 Agent 交互——在真实攻击场景中,这种高频攻击本身可能触发安全警报
  3. 防御视角缺失:论文专注于攻击但缺乏防御建议。仅仅知道”可以被攻击”对于改善安全是不够的

对领域的影响

T-MAP 对 Agent 安全领域的影响是开创性的:

  • 定义了 Agent 红队测试的新标准(ARR 而非文本有害性)
  • 证明了前沿模型在 MCP 环境中的脆弱性
  • 提供了可复现的攻击框架供安全研究者使用

这与 OpenAI 同日发布的 Agent 对齐监控系统形成了完美互补:T-MAP 负责”发现漏洞”,OpenAI 的监控系统负责”检测异常”。两者合力才能构建 Agent 安全的完整防线。