AI Research
Cheers:解耦 Patch 细节与语义表征——用 20% 训练成本实现统一多模态理解与生成
Cheers:解耦 Patch 细节与语义表征——用 20% 训练成本实现统一多模态理解与生成
| 属性 | 值 |
|---|---|
| 论文 | Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation |
| 机构 | 清华大学、西安交大、中科院 |
| 日期 | 2026-03-16 |
| 关键词 | Unified Multimodal Model, Flow Matching, Vision Tokenizer, High-Frequency Injection |
论文速查卡
| 维度 | 内容 |
|---|---|
| 一句话总结 | 将 patch 级高频细节与语义表征解耦,用级联 Flow Matching Head 实现”先画轮廓再补细节”的统一多模态模型,仅 83M 训练样本 + 1.5B LLM 即超越 Tar 等同规模 UMM |
| 大白话版 | ”理解图片要看’大意’,画图片要画’细节’——以前两个打架,现在拆开分别优化再合回来” |
| 核心数字 | GenEval 0.78 / DPG-Bench 83.48 / MMBench 70.4 / 4× token 压缩 / 仅 83M 训练样本 |
| 评级 | ⭐⭐⭐⭐ 架构 insight 清晰,效率突出 |
核心 Insight
统一多模态模型(UMM)面临的根本矛盾:理解需要高层语义,生成需要低层细节。
以往方案要么用两套独立特征空间(理解和生成各一套 encoder),要么强行融合(互相干扰)。Cheers 的核心 insight 是:
不是不能统一,而是要在正确的阶段注入正确粒度的信息。
具体做法:先用 SigLIP2 提取语义 token 供 LLM 理解和条件化,然后在生成阶段的 Flow Matching Head 中,用门控机制动态注入来自 VAE 的高频细节。关键发现:即使没有显式监督,高频注入强度会自发地随 denoising timestep 增大——模型自己学会了”先画轮廓再补细节”。
技术细节
架构三要素
1. 统一视觉 Tokenizer
输入图像 X ∈ R^{H×W×3}
↓ VAE Encoder
z₁ ∈ R^{h×w×d} (h=H/16, w=W/16)
↓ 任务相关噪声混合
z_t = t·z₁ + (1-t)·z₀ (t=1 理解, t∈(0,1) 生成, t=0 纯文本)
↓ VAE Decoder → SigLIP2-ViT (16×16 patch)
z_s^(t) ∈ R^{h×w×d'} (语义 tokens)
↓ Pixel-Unshuffle (2× 压缩)
Z_s^(t) ∈ R^{h/2 × w/2 × c} → 输入 LLM
关键设计决策:
- 先 VAE decode 再 ViT encode(而非直接处理 latent):实验发现直接处理 latent 会丢失 OCR 相关的细粒度特征
- 4× token 压缩:Pixel-Unshuffle 将 h×w 的 token 压缩为 h/2 × w/2,首次在 UMM 中引入 2D token 压缩
2. 统一 LLM Transformer
基座:Qwen2.5-1.5B-Instruct
注意力掩码策略:
- 视觉 token Z_s^(t):双向注意力(捕获全局视觉上下文)
- 文本 token Z_text:因果注意力(标准 AR 解码)
3. 级联 Flow Matching Head(核心创新)
Stage 1: 7 个 DiT blocks
Z_s^(t) ∈ R^{h/2 × w/2 × c} → 低分辨率语义生成
↓ PixelShuffle (2× 上采样)
Z'_s^(t) ∈ R^{h×w×d'}
Stage 2: 高频注入 + 3 个 DiT blocks
Z'_s^(t) ← G(Z'_s^(t)) ⊙ S(D(z_t)) + Z'_s^(t)
↓
V_t (速度场预测)
高频注入(HFI)公式:
Z'_s^{(t)} \leftarrow G(Z'_s^{(t)}) \odot S(D(z_t)) + Z'_s^{(t)}
其中:
- G(·) 是门控网络,输出 R^{h×w×1} 的标量图
- S(D(z_t)) 是 VAE→ViT 提取的 patch 级细节
- ⊙ 是逐元素乘法
数值例子:假设在 512×512 图像上,z_t 的分辨率为 32×32×16。Stage 1 在 16×16 分辨率上做语义生成,PixelShuffle 上采样回 32×32,然后 Stage 2 注入 32×32 分辨率的高频细节。
训练流程(4 阶段)
| 阶段 | 数据量 | 学习率 | 训练模块 | 步数 |
|---|---|---|---|---|
| I. 视觉-语言对齐 | 5.8M | 1e-4 | Projector + CFM + Gate | 30K |
| II. 通用预训练 | 30M | 1e-4 | 全参数 (除 VAE) | 60K |
| III. 精细预训练 | 33M | 4e-5 | 全参数 (除 VAE) | 65K |
| IV. SFT | 3.8M | 2e-5 | 全参数 (除 VAE) | 30K |
总训练样本 ~83M,对比 Tar 的 403M(仅 20%),在 128 × A100 上完成。
推理:Flow-based 采样
从高斯噪声 z₀ 出发,用 ODE 数值积分迭代:
配合 CFG 和时间 schedule shift:
实验结果
多模态理解(Table 2 关键数据)
| 模型 | Scale | SEEDBench | MMBench | ChartQA | OCRBench | MathVista |
|---|---|---|---|---|---|---|
| Janus-Pro | 1.5B | 68.3 | 75.5 | 23.4 | 48.7 | - |
| Show-o2 | 1.5B | 65.6 | 67.4 | 40.0 | 24.5 | - |
| Tar | 1.5B | 70.4 | 65.6 | - | - | - |
| Cheers | 1.5B | 71.7 | 70.4 | 75.7 | 58.4 | 50.5 |
Cheers 在 OCR/Chart 类 benchmark 上大幅领先——这与”先 VAE decode 再 ViT encode”的设计直接相关。
视觉生成(GenEval)
| 模型 | Scale | 训练数据 | Overall |
|---|---|---|---|
| Janus-Pro | 1.5B | 162M | 0.73 |
| Show-o2 | 1.5B | 177M | 0.73 |
| Tar | 1.5B | 403M | 0.76 |
| Cheers | 1.5B | 83M | 0.78 |
用 1/5 的数据超越 Tar,数据效率极高。
消融实验关键发现
| 配置 | GenEval | DPG-Bench | MMBench |
|---|---|---|---|
| 仅理解训练 | - | - | 65.2 |
| 联合训练(无 HFI) | 0.17 | 39.11 | 66.3 |
| 联合训练(有 HFI) | 0.30 | 51.63 | 67.1 |
两个重要结论:
- 联合训练不伤理解:反而略有提升(65.2→67.1)
- HFI 对生成至关重要:GenEval 0.17→0.30(+76%),对理解几乎无影响
复现与落地评估
| 维度 | 评分 | 说明 |
|---|---|---|
| 数据可用性 | ⭐⭐⭐⭐ | 承诺开源代码和数据,已有 HuggingFace 和 GitHub 链接 |
| 计算门槛 | ⭐⭐⭐⭐ | 1.5B 模型 + 128 A100 训练,推理友好 |
| 复现难度 | ⭐⭐⭐⭐ | 4 阶段训练流程清晰,超参数完整公开 |
| 工程完成度 | ⭐⭐⭐ | 仅 512×512 分辨率,尚未扩展到更大模型 |
| 学术价值 | ⭐⭐⭐⭐ | 解耦思路有理论美感,消融充分 |
SOTA 对照矩阵
| 方法 | Scale | GenEval | DPG | MMBench | 训练数据 | 统一 Encoder |
|---|---|---|---|---|---|---|
| Janus-Pro | 1.5B | 0.73 | 82.6 | 75.5 | 162M | ❌ (分离) |
| Show-o2 | 1.5B | 0.73 | 85.0 | 67.4 | 177M | ✅ (融合) |
| Harmon | 1.5B | 0.76 | - | 65.5 | 113M | ✅ |
| Tar | 1.5B | 0.76 | 83.0 | 65.6 | 403M | ✅ |
| Cheers | 1.5B | 0.78 | 83.5 | 70.4 | 83M | ✅ (解耦) |
批判性分析
👍 做得好的
- 解耦思路优雅:不像以往工作在”统一 vs 分离”之间二选一,而是”统一 tokenizer + 解耦注入”——在共享表征的同时保留各自任务所需的信息粒度
- 高频注入的自发涌现行为:门控强度随 timestep 自然演化(早期弱→中期低→末期强)这个发现很有说服力,说明架构设计与生成过程的物理直觉一致
- 数据效率惊人:83M 样本超越 403M 的 Tar,说明架构改进可以大幅减少对数据量的依赖
- OCR 能力的意外飞跃:ChartQA 75.7 远超其他 UMM(Janus-Pro 23.4),证明”先 decode 再 encode”的路径保留了 OCR 关键信息
🤔 值得质疑的
- 仅 512×512 分辨率:在 1024+ 分辨率已成标配的今天,512×512 的生成质量难以与专用生成模型竞争。论文未讨论分辨率扩展
- 理解与 Janus-Pro 的 MMBench 差距:70.4 vs 75.5——Janus-Pro 用分离架构仍领先 5 分。解耦策略在纯理解任务上的优势并不明显
- VAE Decoder 的计算开销:每次前向都需要经过 VAE decode + SigLIP encode,这比直接处理 latent 的方法(如 TUNA)计算量更大,论文未报告推理延迟
- Stage 2 仅 3 个 DiT blocks:Stage 1 用 7 blocks、Stage 2 用 3 blocks 的比例是如何确定的?缺少关于 block 分配的消融
- 1.5B 规模的局限性:论文承认参数规模限制了能力上限,但未提供任何 scaling 实验线索
💡 我的额外观察
- “先 VAE decode 再 encode”这个看似多余的步骤实际上是一个聪明的”域转换”:VAE latent space 和 ViT 预训练的像素空间之间存在分布差异,通过 decode 回像素再 encode 为语义,避免了 latent-ViT 的分布不匹配问题。这比 TUNA 直接用随机初始化 patch embedding 处理 latent 更稳健
- 门控网络 G(·) 的输出维度是 h×w×1(标量图),意味着每个空间位置只有一个门控值控制所有通道的注入强度。这是一个极简设计——如果改为 per-channel gating 可能会更精细但也更容易过拟合
- Cheers 的训练数据配比(理解:生成:文本 = 3:6:1)中生成数据占主导,这与常识相反(通常理解数据更多)。可能因为生成任务的学习信号密度更低,需要更多样本才能学到足够的视觉先验