AI Research

Averis：FP4 训练不稳定的元凶是一个秩一均值偏差——减个均值就能修

论文：The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

作者：Hengjie Cao, Zhendong Huang (复旦大学) 等 18 人

一句话：LLM 激活中那些让低精度训练崩溃的”outlier”，绝大多数由一个相干的秩一均值偏差产生——减掉这个均值再量化，FP4 训练就能接近 BF16 水平。

一、这篇论文在解决什么问题

1.1 背景

FP4 训练（W4A4G4：权重、激活、梯度全部 4-bit）是降低 LLM 训练成本的圣杯。NVIDIA 的 Blackwell GPU 原生支持 FP4 计算，但实践中 FP4 训练极其不稳定——loss 发散或性能严重退化。

根本原因是 LLM 的激活具有强烈的各向异性（anisotropy）：少数方向集中了不成比例的能量，而大量维度承载语义长尾。在 blockwise 量化中，量化尺度由块内最大绝对值决定。当少数方向产生极端值时，整个块的动态范围被拉大，语义长尾被压缩到极窄的数值区间——精度丢失严重。

先前的方法（如 Metis）使用 SVD 或正交化来抑制各向异性——有效但计算昂贵、不适合硬件加速。

1.2 核心问题

各向异性的内部结构是什么？是多个方向都重要，还是有更简洁的描述？
如果结构更简单，是否存在比 SVD 更轻量的修复方法？

二、方法：怎么解决的

2.1 核心 Insight

LLM 激活各向异性的主要成分是一个相干的秩一均值偏差。

具体来说：对于激活矩阵 $\mathbf{X} \in \mathbb{R}^{l \times m}$ （ $l$ 个 token， $m$ 维隐藏层），列均值向量 $\mu_X = \frac{1}{l} \mathbf{1}^\top \mathbf{X}$ 与第一右奇异向量 $\mathbf{v}_1$ 的余弦相似度接近 0.99。

换句话说：你以为需要 SVD 才能找到的”主要各向异性方向”，其实就是均值方向。

而且，这个均值偏差是激活极端值的主要来源。论文将激活分解为三个正交成分：

$\mathbf{X} = \underbrace{\mathbf{1}\mu^\top}_{M(\text{均值})} + \underbrace{U_k \Sigma_k V_k^\top}_{X_{\text{spike}}} + \underbrace{X_{\text{tail}}}_{\text{残差}}$

对 top 0.1% 极端值进行归因分析，发现均值成分贡献了绝大多数极端值——特别是在训练后期和深层。

2.2 技术细节

均值偏差的三阶段成因

论文追溯了均值偏差从何而来：

Stage I：频率加权的嵌入期望。 由于词频呈 Zipf 分布（少数高频词占主导），嵌入层的期望 $\mu_{\text{embed}} = \sum_{v} p(v) E_v$ 天然偏向高频词方向。

Stage II：非线性再生与放大。 即使对中心化的激活，非奇函数（GELU、SwiGLU、ReLU）也会再生非零均值： $\mathbb{E}[\phi(z)] > 0$ 。Softmax 注意力通过指数加权进一步强化高相似度方向。

Stage III：残差累积。 残差连接 $\mu_{l+1} = \mu_l + \Delta\mu_l$ 保存并传播均值偏差。在高维空间中：

$\|\mu\|_2 \sim \sqrt{H} \bar{\mu}$

即使每个坐标的偏移很小， $\sqrt{H}$ 的放大效应（ $H$ 为隐藏维度，通常 2048-8192）也会产生巨大的向量模。

理论分析：均值偏差如何主导极端值

定理 1（单元素极端值支配）： 如果均值偏移 $|\mu_j|$ 超过量化阈值 $t$ ，则坐标超过阈值的概率为：

$\mathbb{P}(|X_{ij}| > t) \geq 1 - 2\exp\!\left(-\frac{(|\mu_j| - t)^2}{2\sigma^2}\right)$

这是常数级概率。而纯方差驱动的极端值概率是指数衰减的。

定理 2（密集极端值放大）： 均值偏移产生 $\Theta(l)$ 个超过阈值的激活（与 token 数成线性），而方差驱动的超阈值数量以 $e^{-t^2/(2\sigma^2)}$ 速度衰减——指数稀少。

直觉类比：均值偏差像是所有学生都站在同一侧的”系统性偏移”——它产生大量超过界限的值。方差则像是随机波动——偶尔才有一个学生超过界限。 量化器必须为前者分配的动态范围远大于后者。

Averis 方法

既然问题是秩一的，修复也只需要一步：

前向传播： 对激活矩阵做均值-残差分裂，分别量化：

$\hat{\mathbf{Y}} = \mathbf{1}(\bar{\mu}_X \bar{\mathbf{W}}) + \bar{\mathbf{X}}_R \bar{\mathbf{W}}$

其中 $\bar{\mu}_X = \mathcal{Q}_4(\mu_X)$ ， $\bar{\mathbf{X}}_R = \mathcal{Q}_4(\mathbf{X} - \mathbf{1}\mu_X)$ 。

反向传播： 对输出梯度做同样的分裂：

$\hat{\frac{\partial\mathcal{L}}{\partial\mathbf{X}}} = \mathbf{1}(\bar{\mu}_D \bar{\mathbf{W}}^\top) + \bar{\mathbf{D}}_R \bar{\mathbf{W}}^\top$

计算开销： 只需要两次 reduce（计算均值）和两次减法。无 SVD，无矩阵分解，所有操作都是 GPU 友好的 reduction 和 elementwise kernel。

2.3 方法对比

方法	核心操作	额外计算	硬件友好	效果
Vanilla FP4	直接量化	无	✅	不稳定
Metis (SVD)	SVD 分解 + 正交化	高（SVD 每层每步）	❌	稳定
SmoothQuant	激活-权重尺度重分配	中	⚠️	部分改善
QuaRot	Hadamard 变换	中	⚠️	改善
Averis	均值减除	极低（reduce + subtract）	✅	接近 Metis

三、实验结果

3.1 实验设置

模型： Qwen-3 0.6B
数据： DCLM 数据集，100B tokens
量化格式： W4A4G4，E2M1 NVFP4，默认使用随机舍入
比较： BF16（全精度基线）vs Vanilla FP4 vs Averis FP4

3.2 主要结果

训练 loss： Averis FP4 的 loss 曲线紧跟 BF16 基线，明显优于 Vanilla FP4。

10B tokens 下游评估（7 个任务平均）：

方法	平均得分
BF16	基线
Vanilla FP4	0.4564
Averis FP4	0.4661（+0.0097）

均值偏差的层间演化验证：

浅层在 10k 步时均值偏差已经很强
深层在 170k 步时均值成分占极端值的比例从 ~50% 升至 ~90%
均值方向与 $\mathbf{v}_1$ 的余弦相似度在所有层和训练阶段都接近 0.99

3.3 消融实验

论文的消融实际上蕴含在分析部分：

均值 vs 尖峰 vs 长尾 三分量对极端值的贡献比例：均值分量在训练后期占绝对主导
Softmax 注意力 和 SwiGLU FFN 的输入-输出比较：两者都增强均值偏差能量

四、复现与落地评估

4.1 复现难度评估

维度	评级	说明
代码开源	⚠️	论文提到代码但未见明确的 repo 链接
数据可得性	✅	DCLM 公开；下游 benchmark 公开
算力需求	中	0.6B 模型可在单卡上训练；100B tokens 需要合理的计算量
依赖复杂度	中	需要自定义 FP4 量化 kernel（NVFP4 格式）
复现总评	⭐⭐⭐	方法本身极简，但 FP4 kernel 工程门槛不低

4.2 工业落地可行性

适用场景： 任何需要 FP4 训练的场景——Blackwell GPU 上的大模型预训练/微调
性能开销： 极低——只增加两个 reduce 和两个 subtract，远低于 SVD 方案
集成难度： 需要修改量化 kernel 的前处理，但不改变模型架构
风险点： 仅在 0.6B 模型上验证，更大模型（7B, 70B+）的效果未知；Averis 的改善幅度虽然显著但绝对值偏小（+0.0097）
落地总评： ⭐⭐⭐⭐（方法几乎是”free lunch”——如果你本来就要做 FP4 训练，没有理由不加上均值减除）

五、SOTA 对照矩阵

方法	核心思路	硬件开销	FP4 稳定性	与 BF16 差距
Averis	秩一均值减除	极低	好	小
Metis	SVD + 正交化	高	好	小
SmoothQuant	尺度重分配	中	中	中
QuaRot	Hadamard 旋转	中	中	中
Vanilla FP4	无处理	无	差	大

SOTA 定位： 这是一个优雅的理论洞察驱动的实用方法。它不会取代 Metis 在所有场景下的效果（因为除均值外可能还有其他不稳定因素），但它以近乎零成本解决了主要矛盾——这就是”秩一结构”的力量。

六、讨论与局限

6.1 论文自身讨论的局限

仅在 0.6B 模型上验证
只测了 W4A4G4 一种量化配置
均值减除是否对 FP8 或混合精度同样有效未评估

6.2 我的额外观察

“curse and blessing”的叙事极其精彩： 同一个结构既是问题的根源又是解决方案的入口——这种对称性在工程中极为罕见。它暗示着：在其他领域中，如果某个现象是系统性问题的主要来源，那它的简单结构可能也意味着简单的修复路径。
与 Neural Thickets 的有趣对照： Neural Thickets 发现随机扰动可以找到好的解——但如果这些扰动落在均值偏差主导的方向上，它们可能只是在”修正均值”而非”找到真正的任务专家”。这为 Neural Thickets 中”格式灌木丛 vs 推理灌木丛”的讨论提供了一个可能的机制解释。
均值偏差与 attention sink 的关系： 先前工作发现 Transformer 的第一个 token 经常产生极端激活（attention sink）。这是否与均值偏差的累积效应有关？如果第一个 token 的方向恰好与累积均值方向对齐，那 attention sink 可能只是均值偏差的一个表现形式。
0.6B → 更大模型的 scaling 是最关键的缺失： $\|\mu\|_2 \sim \sqrt{H} \bar{\mu}$ 的 scaling 关系暗示更大的 $H$ 会让问题更严重——这意味着 Averis 在大模型上可能更有效。但这需要实验验证。

七、对我们的启示

谁应该关注这篇论文？

做 LLM 训练基础设施的工程师——特别是在 Blackwell GPU 上做 FP4 训练的人
做量化方法研究的研究者——均值偏差是一个被忽视的第一阶修正
做表示学习理论的研究者——均值偏差的三阶段成因分析是一个清晰的 case study

核心 takeaway：

各向异性 ≈ 均值偏差： LLM 激活的第一右奇异向量与均值方向的余弦相似度达 0.99——SVD 找到的”主成分”本质上就是均值
均值偏差有明确的成因链： Zipf 词频分布 → 非奇激活函数再生 → 残差连接累积 → $\sqrt{H}$ 维度放大
修复是”free lunch”： 均值减除只需要 reduce + subtract，无 SVD，无矩阵分解，完全 GPU 友好
The curse is the blessing： 问题的结构越简单，修复越容易——秩一问题只需要秩一修复

实践建议：

如果你在做低精度训练，先试均值减除——这是最低成本的第一步，排除了主要不稳定因素后再考虑更复杂的方法
在你的量化 pipeline 中加入均值能量比 $R = \|\mu\|_2 / \sqrt{\mathbb{E}\|X\|^2/N}$ 的监控——这是一个免费的训练稳定性指标

论文速查卡

项目	内容
标题	The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training
作者	Hengjie Cao, Zhendong Huang 等, 复旦大学
链接	arXiv:2603.10444
发表	预印本
一句话总结	LLM 激活各向异性由秩一均值偏差主导，减均值即可稳定 FP4 训练，无需 SVD
大白话版	想象一群学生考试，每个人的试卷都被风往同一个方向吹偏了一点。如果你按照偏斜最远的那张来放大复印，所有人的字都糊了。但如果你先把风的影响减掉，每张试卷就清楚了——而”减掉风”这个操作超简单
核心数字	均值方向与 $\mathbf{v}_1$ 余弦相似度 0.99；下游平均分从 0.4564 提升到 0.4661
复现评级	⭐⭐⭐
落地评级	⭐⭐⭐⭐