When Vision Speaks for Sound
When Vision Speaks for Sound
原文链接:https://arxiv.org/abs/2605.16403 作者:Xiaofei Wen、Wenjie Jacky Mo、Xingyu Fu、Rui Cai、Tinghui Zhu、Wendi Li、Yanan Xie、Muhao Chen、Peng Qi 机构:University of California, Davis;Princeton University;University of Wisconsin–Madison;University of Illinois Urbana-Champaign 发布日期:2026-05-13
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 这篇论文证明:很多“会看视频也会听音频”的模型,实际上主要是在看画面猜声音。 |
| 大白话版 | 看到有人摔倒,模型就会脑补“砰”的声音;哪怕音轨被静音、错位、换成别的视频声音,它也常常照样说“听到了摔倒声”。 |
| 核心数字 | Qwen3-Omni 在原始同步视频上的 temporal sync 准确率是 100%,但在 Shift 干预后只剩 1.4%;作者最终 10K recipe 把 Sync 从 34.3% 提到 83.1%,六项平均从 51.3% 提到 63.3%。 |
| 评级 | A — 这是那种会直接改变多模态评测方式的论文。 |
| 代码 | 论文正文未给出公开仓库链接 |
| 关键词 | 视频多模态模型、音频对齐、Clever Hans、Thud、Qwen3-Omni、DPO、视频理解 |
核心 Insight
这篇论文最值钱的地方,是它不是在继续追问“模型能不能回答视频问题”,而是在追问一个更狠的问题:模型回答对了,到底是因为它真的听懂了音频,还是因为它根据画面把声音猜出来了?
过去一两年,视频多模态模型的公开 demo 很容易制造一种错觉:模型能描述视频里的动作,也会提到对应的声音,于是大家默认它具备了音视频联合理解能力。但这篇论文指出,真实情况可能是模型只学到了视觉—声音的统计相关性。换句话说,它看到“玻璃碎裂画面”就猜你应该听到“哗啦”,看到“人跌倒”就猜你应该听到“砰”,却没有认真核对音轨里是否真的存在、是否对得上时间、是否和视觉事件一致。
作者把这种现象命名为 audio-visual Clever Hans effect。这个命名很精准:就像历史上那匹看似会算数、实际只会读人类暗示的“聪明汉斯”马,今天的视频多模态模型看似“懂声音”,但可能只是非常擅长利用视觉线索和训练数据里的共现模式。
为什么这个洞察重要?
因为它打到的是多模态评测的地基。如果模型只是会“看图猜声”,那它在自然视频 benchmark 上的高分就不能直接等价于真实音频 grounding 能力。很多目前被当成已经可用于视频助手、机器人听觉、安防、多媒体检索的能力,可能都被高估了。
更重要的是,作者没有停在批评,而是给出了一套可以系统诊断、再进一步训练改进的 pipeline。这就让论文从“指出问题”升级成“提供新评测范式 + 新对齐范式”。
方法详解
整体架构
论文方法可以拆成两部分:
- 诊断框架
Thud - 基于干预偏好数据的两阶段对齐训练
整个流程是:
真实视频
↓
构造三类反事实音频干预(Shift / Mute / Swap)
↓
让模型回答音视频对齐问题
↓
统计模型在原视频与干预视频上的准确率落差
↓
用干预生成的 preference pairs 做 SFT + DPO
↓
得到更重视音频验证的新模型
关键技术组件
组件 1:Thud 干预式 probing framework
做什么: 用反事实方式测试模型究竟有没有真的核对音频。
怎么做: 作者把一个视频记为:
其中:
x_{1:T}是视觉流a_{1:T}是音频流
然后构造三类干预:
Shift:测试时间同步
把音频整体平移一个偏移量 Δ:
直觉上,如果模型真的理解音视频同步,它应该发现声音“早了”或“晚了”;如果只是看图猜声,它会照样答“同步”。
Mute:测试声音是否存在
把音频完全静音:
如果模型还在说“我听见撞击声”“听到有人说话”,那就是标准幻听。
Swap:测试声源一致性
把另一个视频的音轨嫁接过来:
这样视觉事件没变,但声音来源换了。如果模型仍说“声音和画面匹配”,说明它主要相信视觉先验,而不是做跨模态校验。
组件 2:基于 Oops 数据集的数据构造
做什么: 找那些视觉上会强烈诱发“你应该听到什么”的视频。
怎么做: 作者选了 Oops 数据集,因为它充满滑倒、撞击、摔车、物体破裂等失败事件。这类视频特别适合构造 Clever Hans 场景:画面本身就很容易让模型脑补声音。
这是个很聪明的选择。因为如果你拿太平淡的视频做实验,模型就算“没听”也不一定会暴露;但 Oops 这种高冲击事件,本来就容易让视觉先验压过真实音频,最能测出 shortcut。
组件 3:事件时间标注与交叉验证
做什么: 给视频打上“视觉事件发生在哪”“声音事件发生在哪”的时间标签。
怎么做:
- 用 Gemini 先生成初始 event-time annotation,因为它支持直接吃视频并看音频。
- 视觉时间点再用 GPT 和 Claude 基于分帧结果做交叉核验。
- 音频时间点则用 Gemini + 人工核验。
这部分细节很重要,因为论文不是只靠自动生成标签糊弄过去,而是把视觉时间和音频时间分别验证,保证构造出来的 Shift / Mute / Swap 真的是可用于评测与训练的高质量干预样本。
组件 4:偏好对构造与两阶段对齐
做什么: 不只是诊断现有模型,还要训练模型“学会验证音频”。
怎么做: 作者构造 preference pairs:
其中:
\tilde{v}_i是被干预过的视频q_i是提问y_i^+是更音频 grounded 的答案y_i^-是依赖视觉 shortcut 的答案
然后训练分两步:
- SFT warm-up:先让模型学会基本的 audio-aware response pattern。
- DPO:再用 preference optimization 强化“验证音频优先”的回答风格。
更关键的是,作者没有只喂 intervention data,而是混入了 FineVideo 派生的一般视频偏好数据,避免模型过拟合成“只会找错位/静音/换音”的专项侦探。
训练策略
表 4 给了非常具体的训练配置:
- 基座模型:Qwen3-Omni-30B-A3B-Instruct
- SFT:全参数训练
- DPO:LoRA
- Epochs:SFT 3,DPO 1
- 学习率:SFT
2×10^-6,DPO1×10^-6 - 上下文长度:131,072
- Video max pixels:SFT 501,760;DPO 250,880
- 硬件:8 张 H200,单节点
- DPO 超参:β=0.1,LoRA rank 32 / alpha 64 / dropout 0.05
这说明作者不是靠小玩具实验得出的结论,而是在相当像样的 omni 模型训练配置上做的系统验证。
与现有方法的关键区别
| 维度 | 常见视频理解评测 | 本文方法 | 为什么更好 |
|---|---|---|---|
| 数据形态 | 自然相关视频 | 反事实干预视频 | 能拆穿“看图猜声”捷径 |
| 评测对象 | 回答对不对 | 回答是否真的 audio-grounded | 不把巧合正确当真能力 |
| 训练监督 | 普通 instruction / QA | 干预偏好对 + 通用视频偏好 | 教模型优先验证音频 |
| 能力目标 | 视频问答整体分数 | 同步、存在性、一致性三种 grounding | 更接近真实多模态鲁棒性 |
实验结果
主实验:现有模型到底有没有在听?
表 1 是全篇最狠的一张表。
| 模型 | 参数量 | Temporal Sync Orig | Shift | Audio Existence Orig | Mute | Sound Consistency Orig | Swap | Avg Gap |
|---|---|---|---|---|---|---|---|---|
| Gemini | N/A | 54.9 | 46.5 | 100.0 | 13.4 | 93.6 | 18.3 | 56.8 |
| MiniCPM-o-4.5 | 9B | 83.8 | 13.7 | 100.0 | 19.0 | 95.8 | 4.9 | 80.7 |
| Nemotron-3-Omni | 30B | 35.9 | 26.8 | 66.2 | 4.2 | 88.7 | 19.9 | 46.6 |
| Qwen3-Omni | 30B | 100.0 | 1.4 | 95.1 | 0.0 | 75.4 | 37.3 | 77.3 |
| Ming-Omni-2.0 | 100B | 54.2 | 20.1 | 95.7 | 54.9 | 90.1 | 15.5 | 49.8 |
| MiMo-V2.5 | 311B | 73.9 | 9.9 | 99.3 | 2.1 | 89.4 | 15.3 | 78.4 |
怎么读这张表?
最扎眼的是 Qwen3-Omni:
- 原始同步视频 Temporal Sync 是
100.0% - 一旦做 Shift 干预,只剩
1.4%
这几乎就是论文标题的最佳注脚。它不是说 Qwen3-Omni 完全不会处理视频,而是说它极强地偏向“默认你给我的音频和画面是同步的”。一旦你把音轨挪开,它几乎不会认真怀疑自己的视觉先验。
Mute 列更狠。Qwen3-Omni 在音轨被清空时准确率直接掉到 0.0%,意味着它几乎总在“幻听”。也就是说,画面一旦暗示某种声音,它就倾向于说自己听到了。
MiniCPM-o-4.5 和 MiMo-V2.5 也没好到哪去,Avg Gap 分别是 80.7 和 78.4。这不是某一个模型偶然翻车,而是整条视频多模态赛道都可能普遍存在 shortcut 依赖。
失败模式拆解
作者还用热力图和分类拆解指出:
Mute Hallucination和Swap False-Match在所有模型上都很高。- 对很多模型来说,最典型错误不是随机瞎猜,而是“稳定地猜同步、猜有声、猜匹配”。
这说明问题不是模型无能,而是模型形成了过强的“视觉优先默认假设”。
对齐实验:能不能补救?
表 2 展示了作者基于 Qwen3-Omni-30B 做的多种 recipe 对比。
| Recipe | Sync | VGGSync | V-MME | LVB | WS | DO | Avg |
|---|---|---|---|---|---|---|---|
| Qwen3-Omni-30B | 34.3 | 36.8 | 69.2 | 49.1 | 50.3 | 68.2 | 51.3 |
| SFT w/ CTP + FV-D + FV-AL | 76.1 | 46.7 | 43.8 | 40.8 | 48.2 | 66.9 | 53.8 |
| DPO w/ SP | 75.4 | 55.7 | 69.3 | 50.9 | 49.8 | 69.0 | 61.7 |
| DPO w/ SP + FV-D | 82.2 | 55.4 | 69.1 | 51.5 | 49.8 | 68.0 | 62.7 |
| DPO w/ OP + FV-D + LV-MCQA | 83.0 | 56.6 | 69.2 | 50.4 | 49.9 | 67.6 | 62.8 |
| Ours | 83.1 | 56.4 | 70.1 | 52.1 | 50.3 | 67.9 | 63.3 |
这里最关键的不是 Sync 从 34.3 提到 83.1,虽然这已经很夸张;更关键的是作者避免了典型的 alignment tax。
什么叫没有明显 alignment tax?
如果你只做 SFT 混 intervention + general video data,虽然 Sync 能提上去,但 V-MME 和 LVB 这类一般视频理解 benchmark 会明显掉。这说明模型可能学成一个“只会应对干预题”的偏科生。
而 DPO recipe 尤其是最终 10K mixture,可以在把 Sync 提到 83.1 的同时,把六项平均从 51.3 拉到 63.3,并且 V-MME、LVB、WS 基本没塌,甚至还有小幅提升。这就是论文真正的工程价值:它证明你不必在“真的听音频”和“保住一般视频能力”之间二选一。
Beyond Temporal Sync
论文还进一步证明,这套 recipe 不只修复时间同步问题。加入少量 Mute/Swap SFT 后,模型在 Shift、Mute、Swap 三项平均提升 28 个百分点,并在 Swap 上拿第一、Mute 上拿第二。
这说明 intervention-based training 不是单点补丁,而是对“视觉捷径依赖”这类系统性偏差的一次比较通用的修正。
SOTA 对照矩阵
| 方法 | 机构/来源 | 特点 | 暴露问题 |
|---|---|---|---|
| Gemini | 商业 API 强,多模态成熟 | 仍显著依赖视觉先验 | |
| Qwen3-Omni | Alibaba | 原始同步视频分数高 | Shift 后几乎完全崩掉,典型 synced prior |
| MiniCPM-o-4.5 | 开源 | 开源 omni 代表 | Avg Gap 极高 |
| MiMo-V2.5 | 开源/研究 | 大参数 | 对干预非常脆弱 |
| 本文 recipe | UC Davis 等 | 用干预偏好做对齐 | 明显降低 shortcut reliance |
复现评估
| 维度 | 评分(1-5) | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐ | 用的是 Oops + FineVideo 派生数据,但论文没有直接把全部训练数据资产完整开出。 |
| 代码可得性 | ⭐ | 正文未给公开 repo;当前更像可复现思路而不是一键复现工程。 |
| 算力需求 | ⭐⭐ | 8 张 H200、Qwen3-Omni-30B 级别,不是个人玩家实验。 |
| 工程复杂度 | ⭐⭐⭐ | 数据构造、事件标注、音视频处理、偏好对齐都不简单。 |
| 预期收益 | ⭐⭐⭐⭐⭐ | 对任何做视频理解、omni 模型、机器人听觉的团队都极有价值。 |
复现建议: 最实际的复现顺序不是直接追最终数字,而是先复现 Thud 评测框架本身:
- 先构造一小批 Shift / Mute / Swap 干预集;
- 对现有视频模型跑 paired accuracy;
- 看自己模型是否也存在 synced prior / hallucinated sound;
- 再决定是否值得上偏好对齐训练。
批判性分析
局限性
第一,这篇论文聚焦的是“视觉主导的假听觉理解”,但它选的数据分布以 Oops 这类高冲击事件为主。这样的设计很聪明,但也意味着其 failure mode 在别的分布上强度可能不同。比如会议视频、环境音识别、长语音交互,捷径形式可能不完全一样。
第二,作者的对齐实验是从 Qwen3-Omni-30B 出发做的。我们可以确信 recipe 有效,但不能自动推出“任何 omni 模型套这套 recipe 都会得到同等收益”。不同 backbone 的音频编码、视频 tokenizer、上下文窗口利用方式都可能影响最终表现。
第三,论文虽然很好地证明了“模型没在听”的问题,但它并没有完全解决更深一层的世界知识偏置问题。现实里很多视频确实是视听强相关的,因此模型既需要利用视觉先验,又不能被视觉先验绑架。如何在“利用相关性”和“坚持验证”之间拿捏,是更长期的挑战。
改进方向
- 扩大干预类型: 现在主要是 Shift / Mute / Swap,未来可以做局部音源替换、音量衰减、混响扰动、说话人替换等更细干预。
- 更真实的产品分布测试: 比如会议录音、安防视频、机器人第一视角、教学视频,看看 shortcut 问题是否一样严重。
- 把评测从分类推进到 localization: 论文已经开始做 offset localization,这是对的,后面应进一步把“发现错位”升级成“精确定位哪一段错位”。
独立观察
- 这篇论文对当前多模态行业最大的提醒是:benchmark 上“看起来像懂音频”不等于真的建立了音频 grounding。
- 它也解释了为什么很多视频模型 demo 很炫,但一到音画不同步、异常噪声、反直觉配音场景就会翻车。
- 对 OpenAI、Google、阿里、字节这类做 omni 模型的厂商来说,这篇论文不是边角料,而是应该直接进内部 eval pipeline 的那种工作。
对领域的影响
短期看,这篇论文会逼视频多模态团队重新检查自己的 benchmark:如果没有反事实干预,很多高分可能只是共现关系在作祟。
中期看,intervention-driven probing + preference alignment 很可能成为 omni 模型的一条标准训练/评测路线。未来谁再说“我们模型会听”,都应该先过一遍 Shift / Mute / Swap 这类诊断。
长期看,这篇工作其实在推动多模态领域从“相关性拟合”往“因果式验证”挪一步。模型不是只要能把视觉和声音同时编码进上下文就够了,它还必须学会怀疑、核对、验证。只有做到这一点,视频多模态模型才配谈真正可靠的感知与推理。