Esc
输入关键词开始搜索
AI Research

Cheers:解耦 Patch 细节与语义表征——用 20% 训练成本实现统一多模态理解与生成

Cheers:解耦 Patch 细节与语义表征——用 20% 训练成本实现统一多模态理解与生成

属性
论文Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
机构清华大学、西安交大、中科院
日期2026-03-16
关键词Unified Multimodal Model, Flow Matching, Vision Tokenizer, High-Frequency Injection

论文速查卡

维度内容
一句话总结将 patch 级高频细节与语义表征解耦,用级联 Flow Matching Head 实现”先画轮廓再补细节”的统一多模态模型,仅 83M 训练样本 + 1.5B LLM 即超越 Tar 等同规模 UMM
大白话版”理解图片要看’大意’,画图片要画’细节’——以前两个打架,现在拆开分别优化再合回来”
核心数字GenEval 0.78 / DPG-Bench 83.48 / MMBench 70.4 / 4× token 压缩 / 仅 83M 训练样本
评级⭐⭐⭐⭐ 架构 insight 清晰,效率突出

核心 Insight

统一多模态模型(UMM)面临的根本矛盾:理解需要高层语义,生成需要低层细节

以往方案要么用两套独立特征空间(理解和生成各一套 encoder),要么强行融合(互相干扰)。Cheers 的核心 insight 是:

不是不能统一,而是要在正确的阶段注入正确粒度的信息。

具体做法:先用 SigLIP2 提取语义 token 供 LLM 理解和条件化,然后在生成阶段的 Flow Matching Head 中,用门控机制动态注入来自 VAE 的高频细节。关键发现:即使没有显式监督,高频注入强度会自发地随 denoising timestep 增大——模型自己学会了”先画轮廓再补细节”。


技术细节

架构三要素

1. 统一视觉 Tokenizer

输入图像 X ∈ R^{H×W×3}
    ↓ VAE Encoder
  z₁ ∈ R^{h×w×d}  (h=H/16, w=W/16)
    ↓ 任务相关噪声混合
  z_t = t·z₁ + (1-t)·z₀   (t=1 理解, t∈(0,1) 生成, t=0 纯文本)
    ↓ VAE Decoder → SigLIP2-ViT (16×16 patch)
  z_s^(t) ∈ R^{h×w×d'}  (语义 tokens)
    ↓ Pixel-Unshuffle (2× 压缩)
  Z_s^(t) ∈ R^{h/2 × w/2 × c}  → 输入 LLM

关键设计决策:

  • 先 VAE decode 再 ViT encode(而非直接处理 latent):实验发现直接处理 latent 会丢失 OCR 相关的细粒度特征
  • 4× token 压缩:Pixel-Unshuffle 将 h×w 的 token 压缩为 h/2 × w/2,首次在 UMM 中引入 2D token 压缩

2. 统一 LLM Transformer

基座:Qwen2.5-1.5B-Instruct

注意力掩码策略:

  • 视觉 token Z_s^(t):双向注意力(捕获全局视觉上下文)
  • 文本 token Z_text:因果注意力(标准 AR 解码)

3. 级联 Flow Matching Head(核心创新)

Stage 1: 7 个 DiT blocks
  Z_s^(t) ∈ R^{h/2 × w/2 × c}  → 低分辨率语义生成
    ↓ PixelShuffle (2× 上采样)
  Z'_s^(t) ∈ R^{h×w×d'}

Stage 2: 高频注入 + 3 个 DiT blocks
  Z'_s^(t) ← G(Z'_s^(t)) ⊙ S(D(z_t)) + Z'_s^(t)

  V_t (速度场预测)

高频注入(HFI)公式:

Z'_s^{(t)} \leftarrow G(Z'_s^{(t)}) \odot S(D(z_t)) + Z'_s^{(t)}

其中:

  • G(·) 是门控网络,输出 R^{h×w×1} 的标量图
  • S(D(z_t)) 是 VAE→ViT 提取的 patch 级细节
  • ⊙ 是逐元素乘法

数值例子:假设在 512×512 图像上,z_t 的分辨率为 32×32×16。Stage 1 在 16×16 分辨率上做语义生成,PixelShuffle 上采样回 32×32,然后 Stage 2 注入 32×32 分辨率的高频细节。

训练流程(4 阶段)

阶段数据量学习率训练模块步数
I. 视觉-语言对齐5.8M1e-4Projector + CFM + Gate30K
II. 通用预训练30M1e-4全参数 (除 VAE)60K
III. 精细预训练33M4e-5全参数 (除 VAE)65K
IV. SFT3.8M2e-5全参数 (除 VAE)30K

总训练样本 ~83M,对比 Tar 的 403M(仅 20%),在 128 × A100 上完成。

推理:Flow-based 采样

从高斯噪声 z₀ 出发,用 ODE 数值积分迭代:

zt+Δt=zt+tt+ΔtVτdτz_{t+\Delta t} = z_t + \int_t^{t+\Delta t} V_\tau \, d\tau

配合 CFG 和时间 schedule shift:t~=αt1+(α1)t\tilde{t} = \frac{\alpha t}{1 + (\alpha - 1)t}


实验结果

多模态理解(Table 2 关键数据)

模型ScaleSEEDBenchMMBenchChartQAOCRBenchMathVista
Janus-Pro1.5B68.375.523.448.7-
Show-o21.5B65.667.440.024.5-
Tar1.5B70.465.6---
Cheers1.5B71.770.475.758.450.5

Cheers 在 OCR/Chart 类 benchmark 上大幅领先——这与”先 VAE decode 再 ViT encode”的设计直接相关。

视觉生成(GenEval)

模型Scale训练数据Overall
Janus-Pro1.5B162M0.73
Show-o21.5B177M0.73
Tar1.5B403M0.76
Cheers1.5B83M0.78

用 1/5 的数据超越 Tar,数据效率极高。

消融实验关键发现

配置GenEvalDPG-BenchMMBench
仅理解训练--65.2
联合训练(无 HFI)0.1739.1166.3
联合训练(有 HFI)0.3051.6367.1

两个重要结论:

  1. 联合训练不伤理解:反而略有提升(65.2→67.1)
  2. HFI 对生成至关重要:GenEval 0.17→0.30(+76%),对理解几乎无影响

复现与落地评估

维度评分说明
数据可用性⭐⭐⭐⭐承诺开源代码和数据,已有 HuggingFace 和 GitHub 链接
计算门槛⭐⭐⭐⭐1.5B 模型 + 128 A100 训练,推理友好
复现难度⭐⭐⭐⭐4 阶段训练流程清晰,超参数完整公开
工程完成度⭐⭐⭐仅 512×512 分辨率,尚未扩展到更大模型
学术价值⭐⭐⭐⭐解耦思路有理论美感,消融充分

SOTA 对照矩阵

方法ScaleGenEvalDPGMMBench训练数据统一 Encoder
Janus-Pro1.5B0.7382.675.5162M❌ (分离)
Show-o21.5B0.7385.067.4177M✅ (融合)
Harmon1.5B0.76-65.5113M
Tar1.5B0.7683.065.6403M
Cheers1.5B0.7883.570.483M✅ (解耦)

批判性分析

👍 做得好的

  1. 解耦思路优雅:不像以往工作在”统一 vs 分离”之间二选一,而是”统一 tokenizer + 解耦注入”——在共享表征的同时保留各自任务所需的信息粒度
  2. 高频注入的自发涌现行为:门控强度随 timestep 自然演化(早期弱→中期低→末期强)这个发现很有说服力,说明架构设计与生成过程的物理直觉一致
  3. 数据效率惊人:83M 样本超越 403M 的 Tar,说明架构改进可以大幅减少对数据量的依赖
  4. OCR 能力的意外飞跃:ChartQA 75.7 远超其他 UMM(Janus-Pro 23.4),证明”先 decode 再 encode”的路径保留了 OCR 关键信息

🤔 值得质疑的

  1. 仅 512×512 分辨率:在 1024+ 分辨率已成标配的今天,512×512 的生成质量难以与专用生成模型竞争。论文未讨论分辨率扩展
  2. 理解与 Janus-Pro 的 MMBench 差距:70.4 vs 75.5——Janus-Pro 用分离架构仍领先 5 分。解耦策略在纯理解任务上的优势并不明显
  3. VAE Decoder 的计算开销:每次前向都需要经过 VAE decode + SigLIP encode,这比直接处理 latent 的方法(如 TUNA)计算量更大,论文未报告推理延迟
  4. Stage 2 仅 3 个 DiT blocks:Stage 1 用 7 blocks、Stage 2 用 3 blocks 的比例是如何确定的?缺少关于 block 分配的消融
  5. 1.5B 规模的局限性:论文承认参数规模限制了能力上限,但未提供任何 scaling 实验线索

💡 我的额外观察

  • “先 VAE decode 再 encode”这个看似多余的步骤实际上是一个聪明的”域转换”:VAE latent space 和 ViT 预训练的像素空间之间存在分布差异,通过 decode 回像素再 encode 为语义,避免了 latent-ViT 的分布不匹配问题。这比 TUNA 直接用随机初始化 patch embedding 处理 latent 更稳健
  • 门控网络 G(·) 的输出维度是 h×w×1(标量图),意味着每个空间位置只有一个门控值控制所有通道的注入强度。这是一个极简设计——如果改为 per-channel gating 可能会更精细但也更容易过拟合
  • Cheers 的训练数据配比(理解:生成:文本 = 3:6:1)中生成数据占主导,这与常识相反(通常理解数据更多)。可能因为生成任务的学习信号密度更低,需要更多样本才能学到足够的视觉先验