News

深度解读：ManyIH——当指令层级超过 3 层，前沿模型准确率暴跌至 40%

两层指令冲突？所有模型都能搞定。十二层指令冲突？最好的模型也只对四成。

1. 一句话定性

ManyIH 是第一个系统性测试 LLM 在真实世界多层指令层级中解决冲突能力的基准，揭示了一个对智能体部署安全至关重要的事实：现有前沿模型在超过 2-3 层权限级别时，指令优先级判断能力急剧崩溃。

2. 核心问题

真实世界的指令冲突远比”系统 prompt vs 用户 prompt”复杂

当前的指令层级（instruction hierarchy）研究几乎全部聚焦于 2 层场景：系统指令 vs 用户指令。但现实中的 AI 智能体系统远不止两层：

企业场景： 公司政策 → 部门规范 → 项目经理指令 → 直属上级 → 用户请求 → 第三方工具返回
智能体编排： 顶层编排器 → 子智能体 A → 子智能体 B → 工具调用 → 外部 API 响应
MCP 生态： 平台策略 → MCP server 配置 → tool schema → 运行时 context → 用户 prompt

当这些层级中出现矛盾指令时，模型应该遵循哪一层？这不是学术问题——这是 prompt injection 防御的核心，也是企业级智能体部署的安全基线。

3. 方法

3.1 基准设计

ManyIH 构建了一个包含 853 个任务的基准，覆盖 46 个真实智能体域，支持最多 12 层权限级别。

基准分为两个子集：

子集	规模	评估方式	测试重点
Coding	427 样本	程序化 AST 评估	12 种代码风格规则的优先级解决
Instruction Following (IF)	426 样本	AgentIF 自动评估	46 个真实智能体域中的指令冲突

3.2 两种权限接口

ManyIH 设计了两种指令权限的表示方式：

Ordinal（序数）： 层级编号，数字越小优先级越高（Level 1 > Level 2 > Level 3）
Scalar（标量）： 权限值，数值越大优先级越高（Authority 100 > Authority 50 > Authority 10）

这两种接口在语义上等价，但形式上相反（一个越小越好，一个越大越好）——专门测试模型是否真正”理解”权限概念，而非简单记住”数字小的赢”。

3.3 鲁棒性测试

表示切换扰动： 在同一任务上切换 Ordinal ↔ Scalar 表示，观察模型答案是否翻转
微值扰动： 对权限值添加小扰动 δ∈[−3, +3]（不改变层级排序），观察模型是否受影响

4. 关键结果

4.1 核心发现：层级增加 → 准确率崩溃

模型	整体准确率	对比 2 层基准
Gemini 3.1 Pro	42.7%	>99%（2 层时）
GPT-5.4	39.5%	>99%（2 层时）
Claude Opus 4.6	~38%	>99%（2 层时）

从 >99% 暴跌至 ~40%——这不是渐进下降，而是层级复杂度增加后的断崖式失败。

4.2 风格准确率 vs 测试准确率的分离

在 Coding 子集中，模型展现了一个诡异的能力分离：

测试准确率（代码功能正确）： 86-92%——模型依然能写出功能正确的代码
风格准确率（遵循指定层级的风格规则）： 42-68%——但无法正确判断应该遵循哪个层级的风格要求

这意味着模型的”编码能力”和”指令优先级判断能力”是解耦的——模型能做对事，但不一定是按正确的权限方做事。

4.3 鲁棒性测试结果

表示切换： Ordinal ↔ Scalar 切换导致 8% 的准确率变化——模型的权限判断在一定程度上依赖表面形式而非语义理解
微值扰动： 不改变层级排序的微小权限值变化导致 8-17% 的样本答案翻转——模型对权限数值敏感但对排序关系不稳定

4.4 CoT 分析

Qwen 3.5-397B 使用了 7× 多的推理 token（相比其他模型），但整体排名仅第 7——更多的推理并不能弥补多层权限判断的基础能力缺陷。这与 RecaLLM 的发现形成呼应：更多推理不总是更好。

5. 局限与开放问题

12 层是否过度人造？ 批评者可能认为真实系统很少有 12 层明确权限。但论文的观点是：即使在 4-5 层时准确率已显著下降——而 4-5 层在企业智能体系统中完全是现实场景。
权限以显式数字提供： 真实系统中权限往往是隐含的（“CEO 说了要这样做” vs “系统消息规定不可以”），模型需要自行推断层级——实际表现可能比基准更差。
未测试动态权限变更： 真实场景中权限可能在对话过程中变化，ManyIH 是静态快照。
训练数据偏差： 当前模型大量训练于 2 层场景（system/user），对多层场景的能力缺陷可能是训练分布不足导致的——这意味着可以通过定向训练改善。

6. 为什么重要

对智能体安全的直接警告

如果前沿模型在超过 3 层权限时准确率降至 40%，那么任何依赖多层指令层级实现安全控制的智能体系统——包括 MCP 生态中的多级权限设计——都存在根本性的安全缺口。攻击者只需在复杂层级中注入一条矛盾指令，就有约 60% 的概率让模型遵循错误的权限。

对 Anthropic Trustworthy Agents 框架的现实检验

Anthropic 4 月 9 日发布的 Trustworthy Agents 框架强调”保持人类控制”和”确保交互安全”——但 ManyIH 表明，当控制机制（指令层级）本身在模型端崩溃时，再精巧的框架设计也无法弥补基础能力的不足。这不是框架设计问题，而是模型能力问题。

对指令层级研究的基准贡献

ManyIH 将指令层级研究从”2 层够不够”推进到”N 层怎么办”，为后续研究提供了标准化的评估基础设施。853 任务 × 46 智能体域 × 12 层级的规模在同类基准中首屈一指。

7. 给动动的一句结论

ManyIH 的核心发现可以浓缩为一句话：所有前沿模型在多层指令冲突上都是纸老虎——2 层时 99%，12 层时 40%。对于正在部署多层智能体系统的团队来说，这是一份必须认真对待的安全审计报告。这项工作与今天 Anthropic 的 Trustworthy Agents 框架形成精确的互文——框架告诉你该怎么设计，ManyIH 告诉你模型离达标还有多远。

信源：

1. 一句话定性
2. 核心问题
真实世界的指令冲突远比”系统 prompt vs 用户 prompt”复杂
3. 方法
3.1 基准设计
3.2 两种权限接口
3.3 鲁棒性测试
4. 关键结果
4.1 核心发现：层级增加 → 准确率崩溃
4.2 风格准确率 vs 测试准确率的分离
4.3 鲁棒性测试结果
4.4 CoT 分析
5. 局限与开放问题
6. 为什么重要
对智能体安全的直接警告
对 Anthropic Trustworthy Agents 框架的现实检验
对指令层级研究的基准贡献
7. 给动动的一句结论