News

深度解读：ActionParty — 让世界模型同时控制 7 个玩家

信源：arXiv:2604.02330 作者：Snap Research / Oxford / Toronto / MBZUAI 解读日期：2026-04-06

一、为什么这件事重要

生成式世界模型正在从”能生成视频”走向”能模拟交互”。但绝大多数世界模型有一个根本缺陷：只能控制一个主体。一旦场景中有多个需要独立控制的角色，模型就分不清”谁执行了哪个动作”。

ActionParty 正面攻克了这个问题。通过 subject state tokens 和空间偏置机制，它在 46 个不同环境中实现了最多 7 个玩家的多主体控制——这是已知的第一个达到此规模的视频扩散世界模型。

论文做了一个精准的诊断实验：即使是 Veo 3 级别的模型，在两个简单几何形状分别移动的场景下，也会把动作分配错误——要么忽略部分指令，要么混淆两个角色的动作。

这是扩散模型的结构性局限（attribute binding problem）：当有多个条件信号时，模型倾向于忽略或合并它们。在视频领域尤其严重，因为还涉及时间维度上的绑定一致性。

核心创新：为每个可控主体分配一组持久的潜变量（subject state tokens），捕获该主体的当前状态。

这些 state tokens 与视频 latents 一起被扩散模型联合建模，但通过注意力掩码强制执行动作-主体对应：

这把”全局视频渲染”和”个体动作更新”拆开处理，从根本上解决了动作绑定问题。

利用 3D Rotary Position Embeddings 将 state tokens 偏置到对应主体在视频中的当前空间位置，确保即使主体移动，绑定关系也能持续追踪。

论文在三个核心维度上评估：

方法	动作绑定	环境数	最大玩家数
Genie 3	单主体	多	1
Multiverse / Solaris	分开建模	1	2
ActionParty	显式绑定	46	7

ActionParty 解决的是世界模型走向实用化的两个核心系统问题：控制精度和身份保持。这两个问题不解决，世界模型就只能做单人第一人称 demo。

最值得关注： 是否发布代码和预训练模型，以及机器人和游戏社区是否快速跟进。

ActionParty 的价值不在于又做了一个世界模型 demo，而在于正面解决了多主体动作绑定这个系统性难题。多主体控制是世界模型从”好看的 demo”走向”可用的仿真引擎”的必经关卡，ActionParty 在这条路上迈出了有说服力的一步。