GDDS:离散扩散首次在大规模任务上击败自回归模型
GDDS:离散扩散首次在大规模任务上击败自回归模型
论文:Generalized Discrete Diffusion from Snapshots 作者:Oussama Zekri, Théo Uscidda, Nicolas Boullé, Anna Korba 日期:2026-03-22 | 投稿 ICML 2026
速查卡
| 项目 | 内容 |
|---|---|
| 一句话 | 统一框架支持任意离散扩散噪声过程,首次在大词汇表生成任务上击败自回归模型 |
| 大白话 | 以前离散扩散只能用简单的 mask 或 uniform 噪声,GDDS 让你用任何噪声(包括语义感知的),而且训练时只需要看”快照”而不是完整路径,又快又好 |
| 核心数字 | Text8 BPC 1.01(SOTA),OpenWebText PPL 超越 AR 基线,零样本迁移 PPL 全面最低 |
| 评级 | A — 理论优雅 + 实验扎实 + 突破性结果(首次超越 AR) |
核心 Insight:为什么这个想法 work
问题诊断
现有离散扩散(dLLM)有两个瓶颈:
- 噪声过程太简单:只有 mask(吸收态)和 uniform(均匀替换)两种选择。这些噪声对离散空间的语义结构完全无感——把 “cat” 变成 “dog” 和变成 “quantum” 的代价一样。
- 逆过程参数化太受限:mean parametrization 将去噪不确定性紧紧绑定在特定逆过程动力学上,超出 uniform/mask 噪声后变得越来越不灵活。
GDDS 的三板斧
1. 广义插值离散扩散(Generalized Interpolating Discrete Diffusion)
GDDS 将前向噪声过程统一为:
其中 是从 1 衰减到 0 的混合率, 是时间相关的列随机混合矩阵。当 时退化为 uniform diffusion,当 时退化为 masked diffusion。但 可以是任意列随机矩阵——比如基于词嵌入语义相似度的高斯核。
直觉: 想象你在模糊一幅画。Uniform 噪声是随机涂鸦,mask 噪声是用橡皮擦擦掉。而 GDDS 的语义感知噪声(Semantic-Informed Kernel, SIK)是把蓝色慢慢变成青色再变成绿色——按照颜色的语义邻近关系来模糊。逆过程因此有了更好的”线索”来恢复原始内容。
2. 通过均匀化(Uniformization)实现高效前向噪声
对于任意率矩阵 ,直接计算矩阵指数在大词汇表(50K+)上不可行。GDDS 利用连续时间马尔可夫链的均匀化技巧:将连续时间过程转化为泊松时钟触发的离散跳跃序列,只需要列访问率矩阵,复杂度从 降到 ( 为泊松跳跃次数)。
数值例子: GPT-2 词汇表 。存储稠密 矩阵需要 参数(~20GB)。GDDS 通过均匀化只需 的列访问,将前向噪声的计算成本降低了 4-5 个数量级。
3. Snapshot ELBO:不看路径,只看快照
传统离散扩散的路径式(path-wise)ELBO 需要追踪完整的噪声轨迹,计算开销大且方差高。GDDS 提出 snapshot ELBO:
只需采样一个时间点 ,得到噪声快照 ,然后让模型直接预测原始 token 。
为什么这足够了? 论文证明了 snapshot ELBO 可以分解为信息项(information term)和校准项(calibration term),前者衡量模型的去噪能力,后者衡量预测置信度的校准程度。关键定理表明,snapshot ELBO 的最优解与 path-wise ELBO 的最优解一致——用更简单的目标就能达到同等效果。
技术细节
Semantic-Informed Kernel (SIK)
这是 GDDS 最具创新性的实际应用。SIK 使用预训练词嵌入(如 GPT-2 embeddings)构建语义感知的跳跃核:
其中 是 token 的嵌入向量。这意味着前向噪声过程中,一个 token 更可能被语义相似的 token 替换,而不是随机替换。
实现挑战: 50K × 50K 的核矩阵无法完整存储。GDDS 使用两种策略:
- KNN 稀疏化:只保留每个 token 的 top-K 近邻
- KeOps 延迟计算:利用 GPU 核函数库 KeOps,在需要时动态计算核值而不存储完整矩阵
实验关键数据
Language Modeling (NLL/BPC)
| 模型 | Text8 BPC ↓ | OWT PPL ↓ |
|---|---|---|
| GPT-2 (AR baseline) | 1.06 | — |
| MDLM (masked) | 1.09 | — |
| UDLM (uniform) | 1.10 | — |
| GDDS Uniform | 1.05 | — |
| GDDS Absorb | 1.04 | — |
| GDDS Gauss (SIK) | 1.01 | 最低 |
Language Generation Quality
| 模型 | Gen PPL ↓ | Seq Entropy | Distinct-3 |
|---|---|---|---|
| AR baseline | — | — | — |
| MDLM | 高 | 低 | 低 |
| GDDS Gauss | 最低 | 最接近真实分布 | 最高 |
零样本迁移
在 PTB、LM1B、Wikitext 三个未见过的数据集上,GDDS Gauss 的零样本 PPL 全面最低,说明语义感知噪声带来了更强的泛化能力。
复现评估
| 维度 | 评分 | 说明 |
|---|---|---|
| 数据 | ⭐⭐⭐⭐⭐ | Text8 和 OpenWebText 均公开 |
| 代码 | ⭐⭐⭐⭐⭐ | 已开源,含完整实验配置 |
| 算力 | ⭐⭐⭐⭐ | 中等规模实验,A100 可复现 |
| 工程复杂度 | ⭐⭐⭐ | 均匀化采样和 SIK 实现需要一定工程量 |
| 收益 | ⭐⭐⭐⭐⭐ | 首次超越 AR,开创性意义 |
批判性分析
局限性
-
规模问题:实验在 ~100M 参数级别进行,Text8 和 OpenWebText 也是相对较小的数据集。能否在 1B+ 参数、万级序列长度上保持优势,是最关键的待验证问题。
-
推理速度:离散扩散需要多步去噪采样,推理延迟远高于 AR 模型的单次前向传播。论文未报告推理时间对比。
-
SIK 的嵌入依赖:语义感知核依赖预训练词嵌入的质量。如果嵌入空间的语义结构不准确,SIK 的优势可能消失。
-
非 mask 扩散的采样困难:论文坦言 SIK 和 uniform 核的祖先采样(ancestral sampling)比 mask 扩散复杂得多,实际采样需要近似计算。
改进方向
- 扩展到更大规模:在 1B+ 参数和 16K+ 序列上验证
- 推理加速:结合 consistency distillation 或 progressive distillation 减少采样步数
- 自适应 SIK:让语义核随训练动态更新而非使用固定预训练嵌入
- 条件生成:将 GDDS 应用于条件文本生成(摘要、翻译)
独立观察
GDDS 的意义不在于立即替代 AR 模型,而在于打破了一个长期假设——离散扩散在离散序列生成上天然劣于自回归。Snapshot ELBO 的简化使得离散扩散可以直接复用标准 Transformer 架构进行训练,消除了之前需要特殊架构设计的障碍。如果这一结果在更大规模上成立,离散扩散可能成为 LLM 的一个严肃替代范式——特别是在需要并行解码的场景(如实时翻译、代码补全)。
📅 2026-03-25 | Lighthouse AI Research