News

When Vision Speaks for Sound

原文链接：https://arxiv.org/abs/2605.16403 作者：Xiaofei Wen、Wenjie Jacky Mo、Xingyu Fu、Rui Cai、Tinghui Zhu、Wendi Li、Yanan Xie、Muhao Chen、Peng Qi 机构：University of California, Davis；Princeton University；University of Wisconsin–Madison；University of Illinois Urbana-Champaign 发布日期：2026-05-13

速查卡

项目	内容
一句话总结	这篇论文证明：很多“会看视频也会听音频”的模型，实际上主要是在看画面猜声音。
大白话版	看到有人摔倒，模型就会脑补“砰”的声音；哪怕音轨被静音、错位、换成别的视频声音，它也常常照样说“听到了摔倒声”。
核心数字	Qwen3-Omni 在原始同步视频上的 temporal sync 准确率是 100%，但在 Shift 干预后只剩 1.4%；作者最终 10K recipe 把 Sync 从 34.3% 提到 83.1%，六项平均从 51.3% 提到 63.3%。
评级	A — 这是那种会直接改变多模态评测方式的论文。
代码	论文正文未给出公开仓库链接
关键词	视频多模态模型、音频对齐、Clever Hans、Thud、Qwen3-Omni、DPO、视频理解

核心 Insight

这篇论文最值钱的地方，是它不是在继续追问“模型能不能回答视频问题”，而是在追问一个更狠的问题：模型回答对了，到底是因为它真的听懂了音频，还是因为它根据画面把声音猜出来了？

过去一两年，视频多模态模型的公开 demo 很容易制造一种错觉：模型能描述视频里的动作，也会提到对应的声音，于是大家默认它具备了音视频联合理解能力。但这篇论文指出，真实情况可能是模型只学到了视觉—声音的统计相关性。换句话说，它看到“玻璃碎裂画面”就猜你应该听到“哗啦”，看到“人跌倒”就猜你应该听到“砰”，却没有认真核对音轨里是否真的存在、是否对得上时间、是否和视觉事件一致。

作者把这种现象命名为 audio-visual Clever Hans effect。这个命名很精准：就像历史上那匹看似会算数、实际只会读人类暗示的“聪明汉斯”马，今天的视频多模态模型看似“懂声音”，但可能只是非常擅长利用视觉线索和训练数据里的共现模式。

为什么这个洞察重要？

因为它打到的是多模态评测的地基。如果模型只是会“看图猜声”，那它在自然视频 benchmark 上的高分就不能直接等价于真实音频 grounding 能力。很多目前被当成已经可用于视频助手、机器人听觉、安防、多媒体检索的能力，可能都被高估了。

更重要的是，作者没有停在批评，而是给出了一套可以系统诊断、再进一步训练改进的 pipeline。这就让论文从“指出问题”升级成“提供新评测范式 + 新对齐范式”。

方法详解

整体架构

论文方法可以拆成两部分：

诊断框架 Thud
基于干预偏好数据的两阶段对齐训练

整个流程是：

真实视频
  ↓
构造三类反事实音频干预（Shift / Mute / Swap）
  ↓
让模型回答音视频对齐问题
  ↓
统计模型在原视频与干预视频上的准确率落差
  ↓
用干预生成的 preference pairs 做 SFT + DPO
  ↓
得到更重视音频验证的新模型

关键技术组件

组件 1：Thud 干预式 probing framework

做什么： 用反事实方式测试模型究竟有没有真的核对音频。

怎么做： 作者把一个视频记为：

v = (x_{1:T}, a_{1:T})

其中：

x_{1:T} 是视觉流
a_{1:T} 是音频流

然后构造三类干预：

Shift：测试时间同步

把音频整体平移一个偏移量 Δ：

\mathcal{I}_{\text{Shift}}(v;\Delta) = (x_{1:T}, a_{1:T}^{+\Delta}), \quad \Delta \in [-\Delta_{\max}, \Delta_{\max}]

直觉上，如果模型真的理解音视频同步，它应该发现声音“早了”或“晚了”；如果只是看图猜声，它会照样答“同步”。

Mute：测试声音是否存在

把音频完全静音：

\mathcal{I}_{\text{Mute}}(v) = (x_{1:T}, \varnothing)

如果模型还在说“我听见撞击声”“听到有人说话”，那就是标准幻听。

Swap：测试声源一致性

把另一个视频的音轨嫁接过来：

\mathcal{I}_{\text{Swap}}(v, v') = (x_{1:T}, a'_{1:T})

这样视觉事件没变，但声音来源换了。如果模型仍说“声音和画面匹配”，说明它主要相信视觉先验，而不是做跨模态校验。

组件 2：基于 Oops 数据集的数据构造

做什么： 找那些视觉上会强烈诱发“你应该听到什么”的视频。

怎么做： 作者选了 Oops 数据集，因为它充满滑倒、撞击、摔车、物体破裂等失败事件。这类视频特别适合构造 Clever Hans 场景：画面本身就很容易让模型脑补声音。

这是个很聪明的选择。因为如果你拿太平淡的视频做实验，模型就算“没听”也不一定会暴露；但 Oops 这种高冲击事件，本来就容易让视觉先验压过真实音频，最能测出 shortcut。

组件 3：事件时间标注与交叉验证

做什么： 给视频打上“视觉事件发生在哪”“声音事件发生在哪”的时间标签。

怎么做：

用 Gemini 先生成初始 event-time annotation，因为它支持直接吃视频并看音频。
视觉时间点再用 GPT 和 Claude 基于分帧结果做交叉核验。
音频时间点则用 Gemini + 人工核验。

这部分细节很重要，因为论文不是只靠自动生成标签糊弄过去，而是把视觉时间和音频时间分别验证，保证构造出来的 Shift / Mute / Swap 真的是可用于评测与训练的高质量干预样本。

组件 4：偏好对构造与两阶段对齐

做什么： 不只是诊断现有模型，还要训练模型“学会验证音频”。

怎么做： 作者构造 preference pairs：

\mathcal{D}_{\mathrm{pref}} = \{(\tilde{v}_i, q_i, y_i^+, y_i^-)\}_{i=1}^{N}

其中：

\tilde{v}_i 是被干预过的视频
q_i 是提问
y_i^+ 是更音频 grounded 的答案
y_i^- 是依赖视觉 shortcut 的答案

然后训练分两步：

SFT warm-up：先让模型学会基本的 audio-aware response pattern。
DPO：再用 preference optimization 强化“验证音频优先”的回答风格。

更关键的是，作者没有只喂 intervention data，而是混入了 FineVideo 派生的一般视频偏好数据，避免模型过拟合成“只会找错位/静音/换音”的专项侦探。

训练策略

表 4 给了非常具体的训练配置：

基座模型：Qwen3-Omni-30B-A3B-Instruct
SFT：全参数训练
DPO：LoRA
Epochs：SFT 3，DPO 1
学习率：SFT 2×10^-6，DPO 1×10^-6
上下文长度：131,072
Video max pixels：SFT 501,760；DPO 250,880
硬件：8 张 H200，单节点
DPO 超参：β=0.1，LoRA rank 32 / alpha 64 / dropout 0.05

这说明作者不是靠小玩具实验得出的结论，而是在相当像样的 omni 模型训练配置上做的系统验证。

与现有方法的关键区别

维度	常见视频理解评测	本文方法	为什么更好
数据形态	自然相关视频	反事实干预视频	能拆穿“看图猜声”捷径
评测对象	回答对不对	回答是否真的 audio-grounded	不把巧合正确当真能力
训练监督	普通 instruction / QA	干预偏好对 + 通用视频偏好	教模型优先验证音频
能力目标	视频问答整体分数	同步、存在性、一致性三种 grounding	更接近真实多模态鲁棒性

实验结果

主实验：现有模型到底有没有在听？

表 1 是全篇最狠的一张表。

模型	参数量	Temporal Sync Orig	Shift	Audio Existence Orig	Mute	Sound Consistency Orig	Swap	Avg Gap
Gemini	N/A	54.9	46.5	100.0	13.4	93.6	18.3	56.8
MiniCPM-o-4.5	9B	83.8	13.7	100.0	19.0	95.8	4.9	80.7
Nemotron-3-Omni	30B	35.9	26.8	66.2	4.2	88.7	19.9	46.6
Qwen3-Omni	30B	100.0	1.4	95.1	0.0	75.4	37.3	77.3
Ming-Omni-2.0	100B	54.2	20.1	95.7	54.9	90.1	15.5	49.8
MiMo-V2.5	311B	73.9	9.9	99.3	2.1	89.4	15.3	78.4

怎么读这张表？

最扎眼的是 Qwen3-Omni：

原始同步视频 Temporal Sync 是 100.0%
一旦做 Shift 干预，只剩 1.4%

这几乎就是论文标题的最佳注脚。它不是说 Qwen3-Omni 完全不会处理视频，而是说它极强地偏向“默认你给我的音频和画面是同步的”。一旦你把音轨挪开，它几乎不会认真怀疑自己的视觉先验。

Mute 列更狠。Qwen3-Omni 在音轨被清空时准确率直接掉到 0.0%，意味着它几乎总在“幻听”。也就是说，画面一旦暗示某种声音，它就倾向于说自己听到了。

MiniCPM-o-4.5 和 MiMo-V2.5 也没好到哪去，Avg Gap 分别是 80.7 和 78.4。这不是某一个模型偶然翻车，而是整条视频多模态赛道都可能普遍存在 shortcut 依赖。

失败模式拆解

作者还用热力图和分类拆解指出：

Mute Hallucination 和 Swap False-Match 在所有模型上都很高。
对很多模型来说，最典型错误不是随机瞎猜，而是“稳定地猜同步、猜有声、猜匹配”。

这说明问题不是模型无能，而是模型形成了过强的“视觉优先默认假设”。

对齐实验：能不能补救？

表 2 展示了作者基于 Qwen3-Omni-30B 做的多种 recipe 对比。

Recipe	Sync	VGGSync	V-MME	LVB	WS	DO	Avg
Qwen3-Omni-30B	34.3	36.8	69.2	49.1	50.3	68.2	51.3
SFT w/ CTP + FV-D + FV-AL	76.1	46.7	43.8	40.8	48.2	66.9	53.8
DPO w/ SP	75.4	55.7	69.3	50.9	49.8	69.0	61.7
DPO w/ SP + FV-D	82.2	55.4	69.1	51.5	49.8	68.0	62.7
DPO w/ OP + FV-D + LV-MCQA	83.0	56.6	69.2	50.4	49.9	67.6	62.8
Ours	83.1	56.4	70.1	52.1	50.3	67.9	63.3

这里最关键的不是 Sync 从 34.3 提到 83.1，虽然这已经很夸张；更关键的是作者避免了典型的 alignment tax。

什么叫没有明显 alignment tax？

如果你只做 SFT 混 intervention + general video data，虽然 Sync 能提上去，但 V-MME 和 LVB 这类一般视频理解 benchmark 会明显掉。这说明模型可能学成一个“只会应对干预题”的偏科生。

而 DPO recipe 尤其是最终 10K mixture，可以在把 Sync 提到 83.1 的同时，把六项平均从 51.3 拉到 63.3，并且 V-MME、LVB、WS 基本没塌，甚至还有小幅提升。这就是论文真正的工程价值：它证明你不必在“真的听音频”和“保住一般视频能力”之间二选一。

Beyond Temporal Sync

论文还进一步证明，这套 recipe 不只修复时间同步问题。加入少量 Mute/Swap SFT 后，模型在 Shift、Mute、Swap 三项平均提升 28 个百分点，并在 Swap 上拿第一、Mute 上拿第二。

这说明 intervention-based training 不是单点补丁，而是对“视觉捷径依赖”这类系统性偏差的一次比较通用的修正。

SOTA 对照矩阵

方法	机构/来源	特点	暴露问题
Gemini	Google	商业 API 强，多模态成熟	仍显著依赖视觉先验
Qwen3-Omni	Alibaba	原始同步视频分数高	Shift 后几乎完全崩掉，典型 synced prior
MiniCPM-o-4.5	开源	开源 omni 代表	Avg Gap 极高
MiMo-V2.5	开源/研究	大参数	对干预非常脆弱
本文 recipe	UC Davis 等	用干预偏好做对齐	明显降低 shortcut reliance

复现评估

维度	评分(1-5)	详细说明
数据可得性	⭐⭐	用的是 Oops + FineVideo 派生数据，但论文没有直接把全部训练数据资产完整开出。
代码可得性	⭐	正文未给公开 repo；当前更像可复现思路而不是一键复现工程。
算力需求	⭐⭐	8 张 H200、Qwen3-Omni-30B 级别，不是个人玩家实验。
工程复杂度	⭐⭐⭐	数据构造、事件标注、音视频处理、偏好对齐都不简单。
预期收益	⭐⭐⭐⭐⭐	对任何做视频理解、omni 模型、机器人听觉的团队都极有价值。

复现建议： 最实际的复现顺序不是直接追最终数字，而是先复现 Thud 评测框架本身：

先构造一小批 Shift / Mute / Swap 干预集；
对现有视频模型跑 paired accuracy；
看自己模型是否也存在 synced prior / hallucinated sound；
再决定是否值得上偏好对齐训练。

批判性分析

局限性

第一，这篇论文聚焦的是“视觉主导的假听觉理解”，但它选的数据分布以 Oops 这类高冲击事件为主。这样的设计很聪明，但也意味着其 failure mode 在别的分布上强度可能不同。比如会议视频、环境音识别、长语音交互，捷径形式可能不完全一样。

第二，作者的对齐实验是从 Qwen3-Omni-30B 出发做的。我们可以确信 recipe 有效，但不能自动推出“任何 omni 模型套这套 recipe 都会得到同等收益”。不同 backbone 的音频编码、视频 tokenizer、上下文窗口利用方式都可能影响最终表现。

第三，论文虽然很好地证明了“模型没在听”的问题，但它并没有完全解决更深一层的世界知识偏置问题。现实里很多视频确实是视听强相关的，因此模型既需要利用视觉先验，又不能被视觉先验绑架。如何在“利用相关性”和“坚持验证”之间拿捏，是更长期的挑战。

改进方向

扩大干预类型： 现在主要是 Shift / Mute / Swap，未来可以做局部音源替换、音量衰减、混响扰动、说话人替换等更细干预。
更真实的产品分布测试： 比如会议录音、安防视频、机器人第一视角、教学视频，看看 shortcut 问题是否一样严重。
把评测从分类推进到 localization： 论文已经开始做 offset localization，这是对的，后面应进一步把“发现错位”升级成“精确定位哪一段错位”。

独立观察

这篇论文对当前多模态行业最大的提醒是：benchmark 上“看起来像懂音频”不等于真的建立了音频 grounding。
它也解释了为什么很多视频模型 demo 很炫，但一到音画不同步、异常噪声、反直觉配音场景就会翻车。
对 OpenAI、Google、阿里、字节这类做 omni 模型的厂商来说，这篇论文不是边角料，而是应该直接进内部 eval pipeline 的那种工作。

对领域的影响

短期看，这篇论文会逼视频多模态团队重新检查自己的 benchmark：如果没有反事实干预，很多高分可能只是共现关系在作祟。

中期看，intervention-driven probing + preference alignment 很可能成为 omni 模型的一条标准训练/评测路线。未来谁再说“我们模型会听”，都应该先过一遍 Shift / Mute / Swap 这类诊断。

长期看，这篇工作其实在推动多模态领域从“相关性拟合”往“因果式验证”挪一步。模型不是只要能把视觉和声音同时编码进上下文就够了，它还必须学会怀疑、核对、验证。只有做到这一点，视频多模态模型才配谈真正可靠的感知与推理。