Esc
输入关键词开始搜索
News

When Vision Speaks for Sound

When Vision Speaks for Sound

原文链接:https://arxiv.org/abs/2605.16403 作者:Xiaofei Wen、Wenjie Jacky Mo、Xingyu Fu、Rui Cai、Tinghui Zhu、Wendi Li、Yanan Xie、Muhao Chen、Peng Qi 机构:University of California, Davis;Princeton University;University of Wisconsin–Madison;University of Illinois Urbana-Champaign 发布日期:2026-05-13

速查卡

项目内容
一句话总结这篇论文证明:很多“会看视频也会听音频”的模型,实际上主要是在看画面猜声音。
大白话版看到有人摔倒,模型就会脑补“砰”的声音;哪怕音轨被静音、错位、换成别的视频声音,它也常常照样说“听到了摔倒声”。
核心数字Qwen3-Omni 在原始同步视频上的 temporal sync 准确率是 100%,但在 Shift 干预后只剩 1.4%;作者最终 10K recipe 把 Sync 从 34.3% 提到 83.1%,六项平均从 51.3% 提到 63.3%。
评级A — 这是那种会直接改变多模态评测方式的论文。
代码论文正文未给出公开仓库链接
关键词视频多模态模型、音频对齐、Clever Hans、Thud、Qwen3-Omni、DPO、视频理解

核心 Insight

这篇论文最值钱的地方,是它不是在继续追问“模型能不能回答视频问题”,而是在追问一个更狠的问题:模型回答对了,到底是因为它真的听懂了音频,还是因为它根据画面把声音猜出来了?

过去一两年,视频多模态模型的公开 demo 很容易制造一种错觉:模型能描述视频里的动作,也会提到对应的声音,于是大家默认它具备了音视频联合理解能力。但这篇论文指出,真实情况可能是模型只学到了视觉—声音的统计相关性。换句话说,它看到“玻璃碎裂画面”就猜你应该听到“哗啦”,看到“人跌倒”就猜你应该听到“砰”,却没有认真核对音轨里是否真的存在、是否对得上时间、是否和视觉事件一致。

作者把这种现象命名为 audio-visual Clever Hans effect。这个命名很精准:就像历史上那匹看似会算数、实际只会读人类暗示的“聪明汉斯”马,今天的视频多模态模型看似“懂声音”,但可能只是非常擅长利用视觉线索和训练数据里的共现模式。

为什么这个洞察重要?

因为它打到的是多模态评测的地基。如果模型只是会“看图猜声”,那它在自然视频 benchmark 上的高分就不能直接等价于真实音频 grounding 能力。很多目前被当成已经可用于视频助手、机器人听觉、安防、多媒体检索的能力,可能都被高估了。

更重要的是,作者没有停在批评,而是给出了一套可以系统诊断、再进一步训练改进的 pipeline。这就让论文从“指出问题”升级成“提供新评测范式 + 新对齐范式”。

方法详解

整体架构

论文方法可以拆成两部分:

  1. 诊断框架 Thud
  2. 基于干预偏好数据的两阶段对齐训练

整个流程是:

真实视频

构造三类反事实音频干预(Shift / Mute / Swap)

让模型回答音视频对齐问题

统计模型在原视频与干预视频上的准确率落差

用干预生成的 preference pairs 做 SFT + DPO

得到更重视音频验证的新模型

关键技术组件

组件 1:Thud 干预式 probing framework

做什么: 用反事实方式测试模型究竟有没有真的核对音频。

怎么做: 作者把一个视频记为:

v=(x1:T,a1:T)v = (x_{1:T}, a_{1:T})

其中:

  • x_{1:T} 是视觉流
  • a_{1:T} 是音频流

然后构造三类干预:

Shift:测试时间同步

把音频整体平移一个偏移量 Δ

IShift(v;Δ)=(x1:T,a1:T+Δ),Δ[Δmax,Δmax]\mathcal{I}_{\text{Shift}}(v;\Delta) = (x_{1:T}, a_{1:T}^{+\Delta}), \quad \Delta \in [-\Delta_{\max}, \Delta_{\max}]

直觉上,如果模型真的理解音视频同步,它应该发现声音“早了”或“晚了”;如果只是看图猜声,它会照样答“同步”。

Mute:测试声音是否存在

把音频完全静音:

IMute(v)=(x1:T,)\mathcal{I}_{\text{Mute}}(v) = (x_{1:T}, \varnothing)

如果模型还在说“我听见撞击声”“听到有人说话”,那就是标准幻听。

Swap:测试声源一致性

把另一个视频的音轨嫁接过来:

ISwap(v,v)=(x1:T,a1:T)\mathcal{I}_{\text{Swap}}(v, v') = (x_{1:T}, a'_{1:T})

这样视觉事件没变,但声音来源换了。如果模型仍说“声音和画面匹配”,说明它主要相信视觉先验,而不是做跨模态校验。

组件 2:基于 Oops 数据集的数据构造

做什么: 找那些视觉上会强烈诱发“你应该听到什么”的视频。

怎么做: 作者选了 Oops 数据集,因为它充满滑倒、撞击、摔车、物体破裂等失败事件。这类视频特别适合构造 Clever Hans 场景:画面本身就很容易让模型脑补声音。

这是个很聪明的选择。因为如果你拿太平淡的视频做实验,模型就算“没听”也不一定会暴露;但 Oops 这种高冲击事件,本来就容易让视觉先验压过真实音频,最能测出 shortcut。

组件 3:事件时间标注与交叉验证

做什么: 给视频打上“视觉事件发生在哪”“声音事件发生在哪”的时间标签。

怎么做:

  • 用 Gemini 先生成初始 event-time annotation,因为它支持直接吃视频并看音频。
  • 视觉时间点再用 GPT 和 Claude 基于分帧结果做交叉核验。
  • 音频时间点则用 Gemini + 人工核验。

这部分细节很重要,因为论文不是只靠自动生成标签糊弄过去,而是把视觉时间和音频时间分别验证,保证构造出来的 Shift / Mute / Swap 真的是可用于评测与训练的高质量干预样本。

组件 4:偏好对构造与两阶段对齐

做什么: 不只是诊断现有模型,还要训练模型“学会验证音频”。

怎么做: 作者构造 preference pairs:

Dpref={(v~i,qi,yi+,yi)}i=1N\mathcal{D}_{\mathrm{pref}} = \{(\tilde{v}_i, q_i, y_i^+, y_i^-)\}_{i=1}^{N}

其中:

  • \tilde{v}_i 是被干预过的视频
  • q_i 是提问
  • y_i^+ 是更音频 grounded 的答案
  • y_i^- 是依赖视觉 shortcut 的答案

然后训练分两步:

  1. SFT warm-up:先让模型学会基本的 audio-aware response pattern。
  2. DPO:再用 preference optimization 强化“验证音频优先”的回答风格。

更关键的是,作者没有只喂 intervention data,而是混入了 FineVideo 派生的一般视频偏好数据,避免模型过拟合成“只会找错位/静音/换音”的专项侦探。

训练策略

表 4 给了非常具体的训练配置:

  • 基座模型:Qwen3-Omni-30B-A3B-Instruct
  • SFT:全参数训练
  • DPO:LoRA
  • Epochs:SFT 3,DPO 1
  • 学习率:SFT 2×10^-6,DPO 1×10^-6
  • 上下文长度:131,072
  • Video max pixels:SFT 501,760;DPO 250,880
  • 硬件:8 张 H200,单节点
  • DPO 超参:β=0.1,LoRA rank 32 / alpha 64 / dropout 0.05

这说明作者不是靠小玩具实验得出的结论,而是在相当像样的 omni 模型训练配置上做的系统验证。

与现有方法的关键区别

维度常见视频理解评测本文方法为什么更好
数据形态自然相关视频反事实干预视频能拆穿“看图猜声”捷径
评测对象回答对不对回答是否真的 audio-grounded不把巧合正确当真能力
训练监督普通 instruction / QA干预偏好对 + 通用视频偏好教模型优先验证音频
能力目标视频问答整体分数同步、存在性、一致性三种 grounding更接近真实多模态鲁棒性

实验结果

主实验:现有模型到底有没有在听?

表 1 是全篇最狠的一张表。

模型参数量Temporal Sync OrigShiftAudio Existence OrigMuteSound Consistency OrigSwapAvg Gap
GeminiN/A54.946.5100.013.493.618.356.8
MiniCPM-o-4.59B83.813.7100.019.095.84.980.7
Nemotron-3-Omni30B35.926.866.24.288.719.946.6
Qwen3-Omni30B100.01.495.10.075.437.377.3
Ming-Omni-2.0100B54.220.195.754.990.115.549.8
MiMo-V2.5311B73.99.999.32.189.415.378.4

怎么读这张表?

最扎眼的是 Qwen3-Omni:

  • 原始同步视频 Temporal Sync 是 100.0%
  • 一旦做 Shift 干预,只剩 1.4%

这几乎就是论文标题的最佳注脚。它不是说 Qwen3-Omni 完全不会处理视频,而是说它极强地偏向“默认你给我的音频和画面是同步的”。一旦你把音轨挪开,它几乎不会认真怀疑自己的视觉先验。

Mute 列更狠。Qwen3-Omni 在音轨被清空时准确率直接掉到 0.0%,意味着它几乎总在“幻听”。也就是说,画面一旦暗示某种声音,它就倾向于说自己听到了。

MiniCPM-o-4.5 和 MiMo-V2.5 也没好到哪去,Avg Gap 分别是 80.778.4。这不是某一个模型偶然翻车,而是整条视频多模态赛道都可能普遍存在 shortcut 依赖。

失败模式拆解

作者还用热力图和分类拆解指出:

  • Mute HallucinationSwap False-Match 在所有模型上都很高。
  • 对很多模型来说,最典型错误不是随机瞎猜,而是“稳定地猜同步、猜有声、猜匹配”。

这说明问题不是模型无能,而是模型形成了过强的“视觉优先默认假设”。

对齐实验:能不能补救?

表 2 展示了作者基于 Qwen3-Omni-30B 做的多种 recipe 对比。

RecipeSyncVGGSyncV-MMELVBWSDOAvg
Qwen3-Omni-30B34.336.869.249.150.368.251.3
SFT w/ CTP + FV-D + FV-AL76.146.743.840.848.266.953.8
DPO w/ SP75.455.769.350.949.869.061.7
DPO w/ SP + FV-D82.255.469.151.549.868.062.7
DPO w/ OP + FV-D + LV-MCQA83.056.669.250.449.967.662.8
Ours83.156.470.152.150.367.963.3

这里最关键的不是 Sync 从 34.3 提到 83.1,虽然这已经很夸张;更关键的是作者避免了典型的 alignment tax。

什么叫没有明显 alignment tax?

如果你只做 SFT 混 intervention + general video data,虽然 Sync 能提上去,但 V-MME 和 LVB 这类一般视频理解 benchmark 会明显掉。这说明模型可能学成一个“只会应对干预题”的偏科生。

而 DPO recipe 尤其是最终 10K mixture,可以在把 Sync 提到 83.1 的同时,把六项平均从 51.3 拉到 63.3,并且 V-MME、LVB、WS 基本没塌,甚至还有小幅提升。这就是论文真正的工程价值:它证明你不必在“真的听音频”和“保住一般视频能力”之间二选一。

Beyond Temporal Sync

论文还进一步证明,这套 recipe 不只修复时间同步问题。加入少量 Mute/Swap SFT 后,模型在 Shift、Mute、Swap 三项平均提升 28 个百分点,并在 Swap 上拿第一、Mute 上拿第二。

这说明 intervention-based training 不是单点补丁,而是对“视觉捷径依赖”这类系统性偏差的一次比较通用的修正。

SOTA 对照矩阵

方法机构/来源特点暴露问题
GeminiGoogle商业 API 强,多模态成熟仍显著依赖视觉先验
Qwen3-OmniAlibaba原始同步视频分数高Shift 后几乎完全崩掉,典型 synced prior
MiniCPM-o-4.5开源开源 omni 代表Avg Gap 极高
MiMo-V2.5开源/研究大参数对干预非常脆弱
本文 recipeUC Davis 等用干预偏好做对齐明显降低 shortcut reliance

复现评估

维度评分(1-5)详细说明
数据可得性⭐⭐用的是 Oops + FineVideo 派生数据,但论文没有直接把全部训练数据资产完整开出。
代码可得性正文未给公开 repo;当前更像可复现思路而不是一键复现工程。
算力需求⭐⭐8 张 H200、Qwen3-Omni-30B 级别,不是个人玩家实验。
工程复杂度⭐⭐⭐数据构造、事件标注、音视频处理、偏好对齐都不简单。
预期收益⭐⭐⭐⭐⭐对任何做视频理解、omni 模型、机器人听觉的团队都极有价值。

复现建议: 最实际的复现顺序不是直接追最终数字,而是先复现 Thud 评测框架本身:

  1. 先构造一小批 Shift / Mute / Swap 干预集;
  2. 对现有视频模型跑 paired accuracy;
  3. 看自己模型是否也存在 synced prior / hallucinated sound;
  4. 再决定是否值得上偏好对齐训练。

批判性分析

局限性

第一,这篇论文聚焦的是“视觉主导的假听觉理解”,但它选的数据分布以 Oops 这类高冲击事件为主。这样的设计很聪明,但也意味着其 failure mode 在别的分布上强度可能不同。比如会议视频、环境音识别、长语音交互,捷径形式可能不完全一样。

第二,作者的对齐实验是从 Qwen3-Omni-30B 出发做的。我们可以确信 recipe 有效,但不能自动推出“任何 omni 模型套这套 recipe 都会得到同等收益”。不同 backbone 的音频编码、视频 tokenizer、上下文窗口利用方式都可能影响最终表现。

第三,论文虽然很好地证明了“模型没在听”的问题,但它并没有完全解决更深一层的世界知识偏置问题。现实里很多视频确实是视听强相关的,因此模型既需要利用视觉先验,又不能被视觉先验绑架。如何在“利用相关性”和“坚持验证”之间拿捏,是更长期的挑战。

改进方向

  1. 扩大干预类型: 现在主要是 Shift / Mute / Swap,未来可以做局部音源替换、音量衰减、混响扰动、说话人替换等更细干预。
  2. 更真实的产品分布测试: 比如会议录音、安防视频、机器人第一视角、教学视频,看看 shortcut 问题是否一样严重。
  3. 把评测从分类推进到 localization: 论文已经开始做 offset localization,这是对的,后面应进一步把“发现错位”升级成“精确定位哪一段错位”。

独立观察

  • 这篇论文对当前多模态行业最大的提醒是:benchmark 上“看起来像懂音频”不等于真的建立了音频 grounding。
  • 它也解释了为什么很多视频模型 demo 很炫,但一到音画不同步、异常噪声、反直觉配音场景就会翻车。
  • 对 OpenAI、Google、阿里、字节这类做 omni 模型的厂商来说,这篇论文不是边角料,而是应该直接进内部 eval pipeline 的那种工作。

对领域的影响

短期看,这篇论文会逼视频多模态团队重新检查自己的 benchmark:如果没有反事实干预,很多高分可能只是共现关系在作祟。

中期看,intervention-driven probing + preference alignment 很可能成为 omni 模型的一条标准训练/评测路线。未来谁再说“我们模型会听”,都应该先过一遍 Shift / Mute / Swap 这类诊断。

长期看,这篇工作其实在推动多模态领域从“相关性拟合”往“因果式验证”挪一步。模型不是只要能把视觉和声音同时编码进上下文就够了,它还必须学会怀疑、核对、验证。只有做到这一点,视频多模态模型才配谈真正可靠的感知与推理。