AI Research

Cheers：解耦 Patch 细节与语义表征——用 20% 训练成本实现统一多模态理解与生成

属性	值
论文	Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation
机构	清华大学、西安交大、中科院
日期	2026-03-16
关键词	Unified Multimodal Model, Flow Matching, Vision Tokenizer, High-Frequency Injection

论文速查卡

维度	内容
一句话总结	将 patch 级高频细节与语义表征解耦，用级联 Flow Matching Head 实现”先画轮廓再补细节”的统一多模态模型，仅 83M 训练样本 + 1.5B LLM 即超越 Tar 等同规模 UMM
大白话版	”理解图片要看’大意’，画图片要画’细节’——以前两个打架，现在拆开分别优化再合回来”
核心数字	GenEval 0.78 / DPG-Bench 83.48 / MMBench 70.4 / 4× token 压缩 / 仅 83M 训练样本
评级	⭐⭐⭐⭐ 架构 insight 清晰，效率突出

核心 Insight

统一多模态模型（UMM）面临的根本矛盾：理解需要高层语义，生成需要低层细节。

以往方案要么用两套独立特征空间（理解和生成各一套 encoder），要么强行融合（互相干扰）。Cheers 的核心 insight 是：

不是不能统一，而是要在正确的阶段注入正确粒度的信息。

具体做法：先用 SigLIP2 提取语义 token 供 LLM 理解和条件化，然后在生成阶段的 Flow Matching Head 中，用门控机制动态注入来自 VAE 的高频细节。关键发现：即使没有显式监督，高频注入强度会自发地随 denoising timestep 增大——模型自己学会了”先画轮廓再补细节”。

技术细节

架构三要素

1. 统一视觉 Tokenizer

输入图像 X ∈ R^{H×W×3}
    ↓ VAE Encoder
  z₁ ∈ R^{h×w×d}  (h=H/16, w=W/16)
    ↓ 任务相关噪声混合
  z_t = t·z₁ + (1-t)·z₀   (t=1 理解, t∈(0,1) 生成, t=0 纯文本)
    ↓ VAE Decoder → SigLIP2-ViT (16×16 patch)
  z_s^(t) ∈ R^{h×w×d'}  (语义 tokens)
    ↓ Pixel-Unshuffle (2× 压缩)
  Z_s^(t) ∈ R^{h/2 × w/2 × c}  → 输入 LLM

关键设计决策：

先 VAE decode 再 ViT encode（而非直接处理 latent）：实验发现直接处理 latent 会丢失 OCR 相关的细粒度特征
4× token 压缩：Pixel-Unshuffle 将 h×w 的 token 压缩为 h/2 × w/2，首次在 UMM 中引入 2D token 压缩

2. 统一 LLM Transformer

基座：Qwen2.5-1.5B-Instruct

注意力掩码策略：

视觉 token Z_s^(t)：双向注意力（捕获全局视觉上下文）
文本 token Z_text：因果注意力（标准 AR 解码）

3. 级联 Flow Matching Head（核心创新）

Stage 1: 7 个 DiT blocks
  Z_s^(t) ∈ R^{h/2 × w/2 × c}  → 低分辨率语义生成
    ↓ PixelShuffle (2× 上采样)
  Z'_s^(t) ∈ R^{h×w×d'}

Stage 2: 高频注入 + 3 个 DiT blocks
  Z'_s^(t) ← G(Z'_s^(t)) ⊙ S(D(z_t)) + Z'_s^(t)
    ↓
  V_t (速度场预测)

高频注入（HFI）公式：

$Z'_s^{(t)} \leftarrow G(Z'_s^{(t)}) \odot S(D(z_t)) + Z'_s^{(t)}$

其中：

G(·) 是门控网络，输出 R^{h×w×1} 的标量图
S(D(z_t)) 是 VAE→ViT 提取的 patch 级细节
⊙ 是逐元素乘法

数值例子：假设在 512×512 图像上，z_t 的分辨率为 32×32×16。Stage 1 在 16×16 分辨率上做语义生成，PixelShuffle 上采样回 32×32，然后 Stage 2 注入 32×32 分辨率的高频细节。

训练流程（4 阶段）

阶段	数据量	学习率	训练模块	步数
I. 视觉-语言对齐	5.8M	1e-4	Projector + CFM + Gate	30K
II. 通用预训练	30M	1e-4	全参数 (除 VAE)	60K
III. 精细预训练	33M	4e-5	全参数 (除 VAE)	65K
IV. SFT	3.8M	2e-5	全参数 (除 VAE)	30K

总训练样本 ~83M，对比 Tar 的 403M（仅 20%），在 128 × A100 上完成。

推理：Flow-based 采样

从高斯噪声 z₀ 出发，用 ODE 数值积分迭代：

$z_{t+\Delta t} = z_t + \int_t^{t+\Delta t} V_\tau \, d\tau$

配合 CFG 和时间 schedule shift： $\tilde{t} = \frac{\alpha t}{1 + (\alpha - 1)t}$

实验结果

多模态理解（Table 2 关键数据）

模型	Scale	SEEDBench	MMBench	ChartQA	OCRBench	MathVista
Janus-Pro	1.5B	68.3	75.5	23.4	48.7	-
Show-o2	1.5B	65.6	67.4	40.0	24.5	-
Tar	1.5B	70.4	65.6	-	-	-
Cheers	1.5B	71.7	70.4	75.7	58.4	50.5

Cheers 在 OCR/Chart 类 benchmark 上大幅领先——这与”先 VAE decode 再 ViT encode”的设计直接相关。

视觉生成（GenEval）

模型	Scale	训练数据	Overall
Janus-Pro	1.5B	162M	0.73
Show-o2	1.5B	177M	0.73
Tar	1.5B	403M	0.76
Cheers	1.5B	83M	0.78

用 1/5 的数据超越 Tar，数据效率极高。

消融实验关键发现

配置	GenEval	DPG-Bench	MMBench
仅理解训练	-	-	65.2
联合训练（无 HFI）	0.17	39.11	66.3
联合训练（有 HFI）	0.30	51.63	67.1

两个重要结论：

联合训练不伤理解：反而略有提升（65.2→67.1）
HFI 对生成至关重要：GenEval 0.17→0.30（+76%），对理解几乎无影响

复现与落地评估

维度	评分	说明
数据可用性	⭐⭐⭐⭐	承诺开源代码和数据，已有 HuggingFace 和 GitHub 链接
计算门槛	⭐⭐⭐⭐	1.5B 模型 + 128 A100 训练，推理友好
复现难度	⭐⭐⭐⭐	4 阶段训练流程清晰，超参数完整公开
工程完成度	⭐⭐⭐	仅 512×512 分辨率，尚未扩展到更大模型
学术价值	⭐⭐⭐⭐	解耦思路有理论美感，消融充分

SOTA 对照矩阵

方法	Scale	GenEval	DPG	MMBench	训练数据	统一 Encoder
Janus-Pro	1.5B	0.73	82.6	75.5	162M	❌ (分离)
Show-o2	1.5B	0.73	85.0	67.4	177M	✅ (融合)
Harmon	1.5B	0.76	-	65.5	113M	✅
Tar	1.5B	0.76	83.0	65.6	403M	✅
Cheers	1.5B	0.78	83.5	70.4	83M	✅ (解耦)

批判性分析

👍 做得好的

解耦思路优雅：不像以往工作在”统一 vs 分离”之间二选一，而是”统一 tokenizer + 解耦注入”——在共享表征的同时保留各自任务所需的信息粒度
高频注入的自发涌现行为：门控强度随 timestep 自然演化（早期弱→中期低→末期强）这个发现很有说服力，说明架构设计与生成过程的物理直觉一致
数据效率惊人：83M 样本超越 403M 的 Tar，说明架构改进可以大幅减少对数据量的依赖
OCR 能力的意外飞跃：ChartQA 75.7 远超其他 UMM（Janus-Pro 23.4），证明”先 decode 再 encode”的路径保留了 OCR 关键信息

🤔 值得质疑的

仅 512×512 分辨率：在 1024+ 分辨率已成标配的今天，512×512 的生成质量难以与专用生成模型竞争。论文未讨论分辨率扩展
理解与 Janus-Pro 的 MMBench 差距：70.4 vs 75.5——Janus-Pro 用分离架构仍领先 5 分。解耦策略在纯理解任务上的优势并不明显
VAE Decoder 的计算开销：每次前向都需要经过 VAE decode + SigLIP encode，这比直接处理 latent 的方法（如 TUNA）计算量更大，论文未报告推理延迟
Stage 2 仅 3 个 DiT blocks：Stage 1 用 7 blocks、Stage 2 用 3 blocks 的比例是如何确定的？缺少关于 block 分配的消融
1.5B 规模的局限性：论文承认参数规模限制了能力上限，但未提供任何 scaling 实验线索

💡 我的额外观察

“先 VAE decode 再 encode”这个看似多余的步骤实际上是一个聪明的”域转换”：VAE latent space 和 ViT 预训练的像素空间之间存在分布差异，通过 decode 回像素再 encode 为语义，避免了 latent-ViT 的分布不匹配问题。这比 TUNA 直接用随机初始化 patch embedding 处理 latent 更稳健
门控网络 G(·) 的输出维度是 h×w×1（标量图），意味着每个空间位置只有一个门控值控制所有通道的注入强度。这是一个极简设计——如果改为 per-channel gating 可能会更精细但也更容易过拟合
Cheers 的训练数据配比（理解:生成:文本 = 3:6:1）中生成数据占主导，这与常识相反（通常理解数据更多）。可能因为生成任务的学习信号密度更低，需要更多样本才能学到足够的视觉先验