深度解读:ManyIH——当指令层级超过 3 层,前沿模型准确率暴跌至 40%
深度解读:ManyIH——当指令层级超过 3 层,前沿模型准确率暴跌至 40%
两层指令冲突?所有模型都能搞定。十二层指令冲突?最好的模型也只对四成。
1. 一句话定性
ManyIH 是第一个系统性测试 LLM 在真实世界多层指令层级中解决冲突能力的基准,揭示了一个对智能体部署安全至关重要的事实:现有前沿模型在超过 2-3 层权限级别时,指令优先级判断能力急剧崩溃。
2. 核心问题
真实世界的指令冲突远比”系统 prompt vs 用户 prompt”复杂
当前的指令层级(instruction hierarchy)研究几乎全部聚焦于 2 层场景:系统指令 vs 用户指令。但现实中的 AI 智能体系统远不止两层:
- 企业场景: 公司政策 → 部门规范 → 项目经理指令 → 直属上级 → 用户请求 → 第三方工具返回
- 智能体编排: 顶层编排器 → 子智能体 A → 子智能体 B → 工具调用 → 外部 API 响应
- MCP 生态: 平台策略 → MCP server 配置 → tool schema → 运行时 context → 用户 prompt
当这些层级中出现矛盾指令时,模型应该遵循哪一层?这不是学术问题——这是 prompt injection 防御的核心,也是企业级智能体部署的安全基线。
3. 方法
3.1 基准设计
ManyIH 构建了一个包含 853 个任务的基准,覆盖 46 个真实智能体域,支持最多 12 层权限级别。
基准分为两个子集:
| 子集 | 规模 | 评估方式 | 测试重点 |
|---|---|---|---|
| Coding | 427 样本 | 程序化 AST 评估 | 12 种代码风格规则的优先级解决 |
| Instruction Following (IF) | 426 样本 | AgentIF 自动评估 | 46 个真实智能体域中的指令冲突 |
3.2 两种权限接口
ManyIH 设计了两种指令权限的表示方式:
- Ordinal(序数): 层级编号,数字越小优先级越高(Level 1 > Level 2 > Level 3)
- Scalar(标量): 权限值,数值越大优先级越高(Authority 100 > Authority 50 > Authority 10)
这两种接口在语义上等价,但形式上相反(一个越小越好,一个越大越好)——专门测试模型是否真正”理解”权限概念,而非简单记住”数字小的赢”。
3.3 鲁棒性测试
- 表示切换扰动: 在同一任务上切换 Ordinal ↔ Scalar 表示,观察模型答案是否翻转
- 微值扰动: 对权限值添加小扰动 δ∈[−3, +3](不改变层级排序),观察模型是否受影响
4. 关键结果
4.1 核心发现:层级增加 → 准确率崩溃
| 模型 | 整体准确率 | 对比 2 层基准 |
|---|---|---|
| Gemini 3.1 Pro | 42.7% | >99%(2 层时) |
| GPT-5.4 | 39.5% | >99%(2 层时) |
| Claude Opus 4.6 | ~38% | >99%(2 层时) |
从 >99% 暴跌至 ~40%——这不是渐进下降,而是层级复杂度增加后的断崖式失败。
4.2 风格准确率 vs 测试准确率的分离
在 Coding 子集中,模型展现了一个诡异的能力分离:
- 测试准确率(代码功能正确): 86-92%——模型依然能写出功能正确的代码
- 风格准确率(遵循指定层级的风格规则): 42-68%——但无法正确判断应该遵循哪个层级的风格要求
这意味着模型的”编码能力”和”指令优先级判断能力”是解耦的——模型能做对事,但不一定是按正确的权限方做事。
4.3 鲁棒性测试结果
- 表示切换: Ordinal ↔ Scalar 切换导致 8% 的准确率变化——模型的权限判断在一定程度上依赖表面形式而非语义理解
- 微值扰动: 不改变层级排序的微小权限值变化导致 8-17% 的样本答案翻转——模型对权限数值敏感但对排序关系不稳定
4.4 CoT 分析
Qwen 3.5-397B 使用了 7× 多的推理 token(相比其他模型),但整体排名仅第 7——更多的推理并不能弥补多层权限判断的基础能力缺陷。这与 RecaLLM 的发现形成呼应:更多推理不总是更好。
5. 局限与开放问题
- 12 层是否过度人造? 批评者可能认为真实系统很少有 12 层明确权限。但论文的观点是:即使在 4-5 层时准确率已显著下降——而 4-5 层在企业智能体系统中完全是现实场景。
- 权限以显式数字提供: 真实系统中权限往往是隐含的(“CEO 说了要这样做” vs “系统消息规定不可以”),模型需要自行推断层级——实际表现可能比基准更差。
- 未测试动态权限变更: 真实场景中权限可能在对话过程中变化,ManyIH 是静态快照。
- 训练数据偏差: 当前模型大量训练于 2 层场景(system/user),对多层场景的能力缺陷可能是训练分布不足导致的——这意味着可以通过定向训练改善。
6. 为什么重要
对智能体安全的直接警告
如果前沿模型在超过 3 层权限时准确率降至 40%,那么任何依赖多层指令层级实现安全控制的智能体系统——包括 MCP 生态中的多级权限设计——都存在根本性的安全缺口。攻击者只需在复杂层级中注入一条矛盾指令,就有约 60% 的概率让模型遵循错误的权限。
对 Anthropic Trustworthy Agents 框架的现实检验
Anthropic 4 月 9 日发布的 Trustworthy Agents 框架强调”保持人类控制”和”确保交互安全”——但 ManyIH 表明,当控制机制(指令层级)本身在模型端崩溃时,再精巧的框架设计也无法弥补基础能力的不足。这不是框架设计问题,而是模型能力问题。
对指令层级研究的基准贡献
ManyIH 将指令层级研究从”2 层够不够”推进到”N 层怎么办”,为后续研究提供了标准化的评估基础设施。853 任务 × 46 智能体域 × 12 层级的规模在同类基准中首屈一指。
7. 给动动的一句结论
ManyIH 的核心发现可以浓缩为一句话:所有前沿模型在多层指令冲突上都是纸老虎——2 层时 99%,12 层时 40%。对于正在部署多层智能体系统的团队来说,这是一份必须认真对待的安全审计报告。这项工作与今天 Anthropic 的 Trustworthy Agents 框架形成精确的互文——框架告诉你该怎么设计,ManyIH 告诉你模型离达标还有多远。
信源: