Esc
输入关键词开始搜索
News

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

原文链接:https://arxiv.org/abs/2603.24472 作者:Jeonghye Kim (KAIST/MSR), Xufang Luo (MSR), Minbeom Kim, Sangmook Lee, Dohyung Kim (SNU), Jiwon Jeon (KAIST), Dongsheng Li, Yuqing Yang (MSR) 机构:Microsoft Research, KAIST, Seoul National University 发布日期:2026-03-25

速查卡

项目内容
一句话总结自蒸馏在压缩推理链的同时抑制了”认知不确定性表达”,导致数学推理性能下降最高达 40%
大白话版AI 在推理时会说”等等""也许""让我想想”——这些看似废话的词其实很重要。如果你训练 AI 不说这些词(让它更简洁),它反而会变笨
核心数字Qwen3-8B 性能下降最高 40%,DeepSeek-Distill-7B 在 AIME24 上从 54.79% 暴跌至 20.21%
评级A — 挑战了”蒸馏总是有益”的广泛假设
代码https://github.com/beanie00/self-distillation-analysis
关键词Self-Distillation, Epistemic Verbalization, Reasoning, RLVR, Post-Training

核心 Insight

这篇论文的核心洞察可以用一个类比来理解:

想象一个数学家在黑板前解题。她会边写边自言自语:“嗯,这里可能用反证法……等等,让我检查一下这个条件……也许换个思路……”这些”自言自语”看起来是冗余的,但它们实际上是在表达和管理不确定性——当推理路径可能出错时,这些信号帮助她回退和修正。

自蒸馏做的事情是:让一个”已经知道答案的老师”来示范推理过程。老师因为已经知道答案,所以推理非常自信、简洁——不会说”等等”或”也许”。学生模仿了这种简洁自信的风格,但在推理时失去了表达不确定性的能力。

结果是:学生在训练集上表现很好(因为问题见过),但在新问题上严重退化(因为不会在不确定时暂停和修正)。

两个关键因素

论文发现蒸馏退化由两个因素共同决定:

  1. 信息丰富度(Information Richness):老师获得的上下文信息越丰富(如完整解答),生成的推理越自信、越简洁,认知不确定性表达被压制得越严重

  2. 任务覆盖度(Task Coverage):当训练任务有限时,自信简洁的风格可以快速优化域内性能;但当任务覆盖度增加,认知不确定性表达的缺失会伤害域外泛化

方法详解

实验设计:四种信息条件对比

论文精心设计了四种生成条件,按信息丰富度从低到高排列:

| 条件 | 设置 | 互信息 I(y;cx)I(y;c|x) | |---|---|---| | (1) 无引导 | c=c = \emptyset | 0 | | (3) 部分引导 | c=sthinkc = s_{\setminus think}(只有答案,无思考过程) | 中低 | | (4) 重生成引导 | c=y~c = \tilde{y}(之前在(2)条件下的生成结果) | 中高 | | (2) 完整引导 | c=sc = s(完整解答含思考过程) | 最高 |

关键发现 1:信息越多,认知表达越少

在 100 个中等难度数学题上(DeepSeek-R1-Distill-Qwen-7B),四种条件的对比结果:

条件平均分数平均长度认知 Token 数
(1) 无引导0.3013,054182.5
(3) 部分引导0.7812,036159.8
(4) 重生成引导0.952,80824.1
(2) 完整引导0.981,8738.8

解读: 从”无引导”到”完整引导”,认知 Token 数从 182.5 暴跌至 8.8——减少了 95.2%。响应长度从 13,054 缩短到 1,873。分数确实提高了,但这种提高依赖于推理时不可用的额外信息。

关键发现 2:SFT 蒸馏导致灾难性退化

用两种数据集进行 SFT:

数据集来源特点
Dug\mathcal{D}_{ug}无引导生成高认知表达,平均 12K tokens
Dsg\mathcal{D}_{sg}完整引导生成低认知表达,平均 2K tokens

两个数据集都只包含正确答案的推理轨迹——唯一的区别是认知不确定性表达的密度。

结果(DeepSeek-R1-Distill-Qwen-7B):

模型AIME24AIME25AMC23MATH500
基准模型54.7937.9289.0692.19
SFT on Dug\mathcal{D}_{ug}51.0440.0087.6690.93
SFT on Dsg\mathcal{D}_{sg}20.2112.7157.0365.52

用无引导数据训练——几乎不影响性能。 用完整引导数据训练——AIME24 从 54.79% 暴跌至 20.21%(降幅 63%)!

这是在仅使用正确答案训练的情况下! 数据全部正确,但推理风格不同,就导致了灾难性退化。

关键发现 3:在线自蒸馏(SDPO)的退化模式

在线自蒸馏(SDPO,Self-Distillation with Policy Optimization)使用当前模型的两个实例——一个有答案引导的”老师”和一个无引导的”学生”——进行迭代优化。

DeepSeek-R1-Distill-Qwen-7B 结果:

  • GRPO(标准 RL):AIME24 54.7 → 56.0(+2.4%),认知 Token 略增
  • SDPO(c=s):AIME24 54.7 → ~33(约 -40%),认知 Token 大幅减少
  • SDPO(c=s_{\setminus think}):退化有所减缓但仍低于基准

Qwen3-8B(开启思考模式)结果:

  • GRPO:性能基本稳定
  • SDPO:渐进退化,AIME24 性能持续下降

关键发现 4:任务覆盖度与泛化的关系

将训练题目数量 D|\mathcal{D}| 从 1 增加到 512:

  • GRPO:题目越多,OOD 性能越好,认知表达也越多
  • SDPO:题目越多,OOD 退化越严重! 即使在最大数据集(DAPO-Math-17k)上,SDPO 仍低于基准模型

核心机制:

  • 任务少时:自信简洁的推理可以快速”记住”有限的题型
  • 任务多时:多样化的问题需要不确定性表达来处理未见的推理模式
  • SDPO 压制不确定性表达,在多样化任务上适得其反

10 个认知 Token

论文定义的认知标记: {wait, hmm, perhaps, maybe, actually, alternatively, seems, might, likely, check}

这些词看似是”语言冗余”,实际上标记了推理过程中的不确定性节点——模型在这些位置考虑替代路径、检查假设、或修正方向。

DeepSeek-R1 等强推理模型大量使用 “Wait” 和 “Hmm”——这不是模型的缺陷,而是其推理能力的组成部分

批判性分析

局限性

论文自述的局限:

  1. 实验主要聚焦数学推理,在科学问答和代码等领域蒸馏反而有效
  2. 仅测试了 7B-8B 规模的模型,更大模型的行为可能不同

我们额外发现的问题:

  1. 10 个认知 Token 是否充分? “Wait""Hmm” 等词是认知不确定性的表面指标,更深层的不确定性可能体现在推理结构而非特定词汇上
  2. 实际蒸馏实践的影响:HuggingFace 热榜上”Qwen3.5-Claude-4.6-Opus-Distilled”等模型正在被广泛使用——这项研究暗示这些蒸馏模型可能在推理能力上存在隐性退化
  3. 与 RLHF 的交互:RLHF 训练也可能抑制认知不确定性表达(“自信的回答”通常获得更高的人类偏好评分),但论文未探讨这一交互

对领域的影响

这篇论文的发现对以下实践有直接影响:

  1. 模型蒸馏:不能简单地用”教师模型的正确答案轨迹”来训练学生模型——推理风格同样重要
  2. 推理压缩:缩短推理链不等于改善推理——关键是区分”无用冗余”和”有用的不确定性信号”
  3. 模型评估:仅看最终答案正确率不够,还需要评估模型在不确定时是否能表达和利用这种不确定性
  4. 开源蒸馏模型:大量社区蒸馏模型的推理可靠性可能被高估——它们可能在 in-domain 看起来不错但 OOD 严重退化

独立观察

  • 这篇论文为”思考 Token 的价值”提供了强有力的实证支持。DeepSeek-R1 和 Qwen3 等模型的长推理链不是浪费——那些 “Wait” 和 “Hmm” 是推理能力的载体
  • 与 Apple-Google Gemini 蒸馏合作的消息形成有趣对比:Apple 正在用 Gemini 蒸馏设备端小模型——这项研究提醒,蒸馏过程需要特别注意保留推理能力的关键信号
  • 论文提出的”信息丰富度 vs 任务覆盖度”框架为理解自蒸馏提供了清晰的理论透镜,可能影响未来所有后训练方法的设计