News

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

原文链接：https://arxiv.org/abs/2603.24472 作者：Jeonghye Kim (KAIST/MSR), Xufang Luo (MSR), Minbeom Kim, Sangmook Lee, Dohyung Kim (SNU), Jiwon Jeon (KAIST), Dongsheng Li, Yuqing Yang (MSR) 机构：Microsoft Research, KAIST, Seoul National University 发布日期：2026-03-25

速查卡

项目	内容
一句话总结	自蒸馏在压缩推理链的同时抑制了”认知不确定性表达”，导致数学推理性能下降最高达 40%
大白话版	AI 在推理时会说”等等""也许""让我想想”——这些看似废话的词其实很重要。如果你训练 AI 不说这些词（让它更简洁），它反而会变笨
核心数字	Qwen3-8B 性能下降最高 40%，DeepSeek-Distill-7B 在 AIME24 上从 54.79% 暴跌至 20.21%
评级	A — 挑战了”蒸馏总是有益”的广泛假设
代码	https://github.com/beanie00/self-distillation-analysis
关键词	Self-Distillation, Epistemic Verbalization, Reasoning, RLVR, Post-Training

核心 Insight

这篇论文的核心洞察可以用一个类比来理解：

想象一个数学家在黑板前解题。她会边写边自言自语：“嗯，这里可能用反证法……等等，让我检查一下这个条件……也许换个思路……”这些”自言自语”看起来是冗余的，但它们实际上是在表达和管理不确定性——当推理路径可能出错时，这些信号帮助她回退和修正。

自蒸馏做的事情是：让一个”已经知道答案的老师”来示范推理过程。老师因为已经知道答案，所以推理非常自信、简洁——不会说”等等”或”也许”。学生模仿了这种简洁自信的风格，但在推理时失去了表达不确定性的能力。

结果是：学生在训练集上表现很好（因为问题见过），但在新问题上严重退化（因为不会在不确定时暂停和修正）。

两个关键因素

论文发现蒸馏退化由两个因素共同决定：

信息丰富度（Information Richness）：老师获得的上下文信息越丰富（如完整解答），生成的推理越自信、越简洁，认知不确定性表达被压制得越严重
任务覆盖度（Task Coverage）：当训练任务有限时，自信简洁的风格可以快速优化域内性能；但当任务覆盖度增加，认知不确定性表达的缺失会伤害域外泛化

方法详解

实验设计：四种信息条件对比

论文精心设计了四种生成条件，按信息丰富度从低到高排列：

| 条件 | 设置 | 互信息 $I(y;c|x)$ | |---|---|---| | (1) 无引导 | $c = \emptyset$ | 0 | | (3) 部分引导 | $c = s_{\setminus think}$ （只有答案，无思考过程） | 中低 | | (4) 重生成引导 | $c = \tilde{y}$ （之前在(2)条件下的生成结果） | 中高 | | (2) 完整引导 | $c = s$ （完整解答含思考过程） | 最高 |

关键发现 1：信息越多，认知表达越少

在 100 个中等难度数学题上（DeepSeek-R1-Distill-Qwen-7B），四种条件的对比结果：

条件	平均分数	平均长度	认知 Token 数
(1) 无引导	0.30	13,054	182.5
(3) 部分引导	0.78	12,036	159.8
(4) 重生成引导	0.95	2,808	24.1
(2) 完整引导	0.98	1,873	8.8

解读： 从”无引导”到”完整引导”，认知 Token 数从 182.5 暴跌至 8.8——减少了 95.2%。响应长度从 13,054 缩短到 1,873。分数确实提高了，但这种提高依赖于推理时不可用的额外信息。

关键发现 2：SFT 蒸馏导致灾难性退化

用两种数据集进行 SFT：

数据集	来源	特点
$\mathcal{D}_{ug}$	无引导生成	高认知表达，平均 12K tokens
$\mathcal{D}_{sg}$	完整引导生成	低认知表达，平均 2K tokens

两个数据集都只包含正确答案的推理轨迹——唯一的区别是认知不确定性表达的密度。

结果（DeepSeek-R1-Distill-Qwen-7B）：

模型	AIME24	AIME25	AMC23	MATH500
基准模型	54.79	37.92	89.06	92.19
SFT on $\mathcal{D}_{ug}$	51.04	40.00	87.66	90.93
SFT on $\mathcal{D}_{sg}$	20.21	12.71	57.03	65.52

用无引导数据训练——几乎不影响性能。用完整引导数据训练——AIME24 从 54.79% 暴跌至 20.21%（降幅 63%）！

这是在仅使用正确答案训练的情况下！ 数据全部正确，但推理风格不同，就导致了灾难性退化。

关键发现 3：在线自蒸馏（SDPO）的退化模式

在线自蒸馏（SDPO，Self-Distillation with Policy Optimization）使用当前模型的两个实例——一个有答案引导的”老师”和一个无引导的”学生”——进行迭代优化。

DeepSeek-R1-Distill-Qwen-7B 结果：

GRPO（标准 RL）：AIME24 54.7 → 56.0（+2.4%），认知 Token 略增
SDPO（c=s）：AIME24 54.7 → ~33（约 -40%），认知 Token 大幅减少
SDPO（c=s_{\setminus think}）：退化有所减缓但仍低于基准

Qwen3-8B（开启思考模式）结果：

GRPO：性能基本稳定
SDPO：渐进退化，AIME24 性能持续下降

关键发现 4：任务覆盖度与泛化的关系

将训练题目数量 $|\mathcal{D}|$ 从 1 增加到 512：

GRPO：题目越多，OOD 性能越好，认知表达也越多
SDPO：题目越多，OOD 退化越严重！ 即使在最大数据集（DAPO-Math-17k）上，SDPO 仍低于基准模型

核心机制：

任务少时：自信简洁的推理可以快速”记住”有限的题型
任务多时：多样化的问题需要不确定性表达来处理未见的推理模式
SDPO 压制不确定性表达，在多样化任务上适得其反

10 个认知 Token

论文定义的认知标记： {wait, hmm, perhaps, maybe, actually, alternatively, seems, might, likely, check}

这些词看似是”语言冗余”，实际上标记了推理过程中的不确定性节点——模型在这些位置考虑替代路径、检查假设、或修正方向。

DeepSeek-R1 等强推理模型大量使用 “Wait” 和 “Hmm”——这不是模型的缺陷，而是其推理能力的组成部分。

批判性分析

局限性

论文自述的局限：

实验主要聚焦数学推理，在科学问答和代码等领域蒸馏反而有效
仅测试了 7B-8B 规模的模型，更大模型的行为可能不同

我们额外发现的问题：

10 个认知 Token 是否充分？ “Wait""Hmm” 等词是认知不确定性的表面指标，更深层的不确定性可能体现在推理结构而非特定词汇上
实际蒸馏实践的影响：HuggingFace 热榜上”Qwen3.5-Claude-4.6-Opus-Distilled”等模型正在被广泛使用——这项研究暗示这些蒸馏模型可能在推理能力上存在隐性退化
与 RLHF 的交互：RLHF 训练也可能抑制认知不确定性表达（“自信的回答”通常获得更高的人类偏好评分），但论文未探讨这一交互

对领域的影响

这篇论文的发现对以下实践有直接影响：

模型蒸馏：不能简单地用”教师模型的正确答案轨迹”来训练学生模型——推理风格同样重要
推理压缩：缩短推理链不等于改善推理——关键是区分”无用冗余”和”有用的不确定性信号”
模型评估：仅看最终答案正确率不够，还需要评估模型在不确定时是否能表达和利用这种不确定性
开源蒸馏模型：大量社区蒸馏模型的推理可靠性可能被高估——它们可能在 in-domain 看起来不错但 OOD 严重退化

独立观察

这篇论文为”思考 Token 的价值”提供了强有力的实证支持。DeepSeek-R1 和 Qwen3 等模型的长推理链不是浪费——那些 “Wait” 和 “Hmm” 是推理能力的载体
与 Apple-Google Gemini 蒸馏合作的消息形成有趣对比：Apple 正在用 Gemini 蒸馏设备端小模型——这项研究提醒，蒸馏过程需要特别注意保留推理能力的关键信号
论文提出的”信息丰富度 vs 任务覆盖度”框架为理解自蒸馏提供了清晰的理论透镜，可能影响未来所有后训练方法的设计