Esc
输入关键词开始搜索
AI Research

Neural Thickets:预训练权重邻域中藏着密集的任务专家——随机猜测竟能媲美 PPO/GRPO

Neural Thickets:预训练权重邻域中藏着密集的任务专家——随机猜测竟能媲美 PPO/GRPO

论文:Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

作者:Yulu Gan (MIT) 等

一句话:大模型预训练后,它的参数邻域里挤满了各种任务的”专家”版本——你甚至可以靠随机猜参数+投票来做 post-training,效果媲美 PPO 和 GRPO。


一、这篇论文在解决什么问题

1.1 背景

Post-training(后训练)是当前 LLM 工作流中不可或缺的一环:预训练模型拿到后,还需要通过 RLHF(PPO)、GRPO、ES 等方法进行对齐和能力强化。这些方法都是迭代优化——需要多轮梯度更新、策略采样、reward 计算。

一个根本性的问题是:post-training 之所以有效,是因为优化算法聪明,还是因为预训练已经把好的解摆在了”附近”?

“随机猜参数”在传统观念中被认为是不可能有效的——Schmidhuber、Hochreiter、Bengio 在 2001 年就说过”random guessing cannot be viewed as a reasonable learning algorithm”。

1.2 核心问题

论文提出三个递进的研究问题:

  1. 预训练权重的局部邻域中,能提升下游任务性能的解有多”密集”?
  2. 这些局部解是”全能型”还是”专家型”——它们在不同任务上的表现是相关还是独立的?
  3. 如果密度足够高、多样性足够强,随机猜测+集成是否可以作为一种有效的 post-training 方法?

二、方法:怎么解决的

2.1 核心 Insight

预训练不只是找到了一个好的参数点——它找到了一个被密集任务专家包围的参数区域。 在大模型中,这些专家的密度高到随机采样就能以合理概率命中。

更精确地说:

  • 小模型处于”大海捞针”体制(needle in a haystack)——好的解稀疏,必须靠梯度下降这种结构化搜索
  • 大模型进入”灌木丛”体制(thicket regime)——好的解密集,随机猜就能找到
  • 这些解还是专家型的——不同的随机扰动擅长不同的任务

2.2 技术细节

解密度的定义与测量

定义 Solution Density δ(m)\delta(m) 为随机高斯扰动提升任务得分至少 mm 的概率:

δ(m)=PϵN(0,σ2I)[s(θ+ϵ)s(θ)+m]\delta(m) = \mathbb{P}_{\epsilon \sim \mathcal{N}(0, \sigma^2 I)}[s(\theta + \epsilon) \geq s(\theta) + m]

其中 σ=0.005\sigma = 0.005。直觉:这是”随机猜一下就猜对”的概率。

关键实验: 在 Qwen2.5 系列(0.5B → 32B)上测量,对 1000 个随机扰动计算准确率变化:

  • 0.5B 模型:周围几乎全是蓝色(性能下降),预训练权重在局部最大值
  • 7B 模型:周围开始出现红色区域(性能提升)
  • 32B 模型:周围大片红色,预训练权重反而在一个”低谷”中

δ(m)\delta(m) 随模型规模单调递增,即使设定 m=+5%m = +5\% 的高门槛也成立。

解多样性的定义与测量

定义 Spectral Discordance D\mathcal{D} 来衡量不同扰动在不同任务上的表现是否相关:

D=11M(M1)jkCjk\mathcal{D} = 1 - \frac{1}{M(M-1)} \sum_{j \neq k} C_{jk}

其中 CjkC_{jk} 是任务 jjkk 之间的 Pearson 相关系数。D1\mathcal{D} \to 1 表示完全专家化,D0\mathcal{D} \to 0 表示全能型。

结果: D\mathcal{D} 也随模型规模单调递增——大模型周围的解不仅多,而且更加多样化。

RandOpt 算法

既然好的解密集且多样,就可以用最简单的方式利用它们:

  1. 训练(随机猜测): 采样 NN 个高斯扰动 θi=θ+σϵ(si)\theta_i = \theta + \sigma \cdot \epsilon(s_i),在训练集上评估,选出 top-KK
  2. 推理(集成): 对测试输入,用 top-KK 个模型各自生成答案,多数投票
# 训练阶段:O(1) 步
scores = [evaluate(theta + sigma * eps(seed[i]), D_train) for i in range(N)]
top_indices = topk(scores, K).indices

# 推理阶段:K 次前向传播
answers = [generate(theta + sigma * eps(seed[i]), x) for i in top_indices]
prediction = majority_vote(answers)

2.3 方法对比

方法优化步数并行性通信量推理开销
PPOTT(数百步)部分并行高(梯度同步)1x
GRPOTT(数百步)部分并行1x
ESTT(数百步)TT 次分数同步1x
RandOpt1(零梯度步)完全并行1 次分数同步KKx

三、实验结果

3.1 实验设置

  • 模型: Qwen2.5(0.5B-8B)、Llama、OLMo3,含 base 和 instruct 变体
  • 任务: 数学(Countdown, GSM8K, MATH-500, OlympiadBench)、代码(MBPP)、写作(ROCStories)、化学(USPTO)
  • 基线: PPO、GRPO、ES,所有方法在相同训练 FLOPs 下比较
  • RandOpt 设置: N=5000N = 5000, K=50K = 50

3.2 主要结果

LLM 实验: RandOpt(K=50K=50)在大多数模型规模和任务类别上匹配或超越 PPO/GRPO/ES。

关键数字:

  • OLMo-3-7B-Instruct 在 Countdown 上:RandOpt 200 GH200 训练 3.2 分钟达到 70% 准确率
  • Qwen2.5-3B-Inst 在 GSM8K 上:RandOpt 蒸馏后 84.3% vs Base 79.8%(+4.5%)
  • VLM(Qwen2.5-VL-3B-Inst)在 GQA 上:RandOpt 从 56.6% → 69.0%(+12.4%)

集成的重要性: K=1K=1 时效果显著弱于 K=50K=50。集成对所有方法都有帮助——但 RandOpt 天然产出多样化的模型集合。

3.3 消融实验

性能来源分解(GSM8K, Qwen2.5-3B-Inst):

来源RandOpt (K=50)GRPO
保持正确基础部分基础部分
推理改进(原错改对)12.3%有贡献
格式修复(答案对但格式错)19.0%也有贡献
回退(原对变错)0.7%

重要发现:性能提升不全是推理改进——格式修复占了相当大的比例。 这对 GRPO 等方法同样成立。

Scaling 行为:

  • GPT-2 0.1B:RandOpt 无效(密度太低)
  • Qwen 0.5B:微弱提升
  • ~1.5B 参数: RandOpt 效果开始急剧上升——这是”灌木丛”体制的入口
  • 从零开始(无预训练):RandOpt 在所有规模上都无效——预训练是前提条件

四、复现与落地评估

4.1 复现难度评估

维度评级说明
代码开源GitHub 完整开源
数据可得性使用公开 benchmark(GSM8K、MATH-500 等)
算力需求中-高N=5000 次前向传播需要多卡并行;200 GH200 完成仅需 3.2 分钟
依赖复杂度只需推理能力,无需训练基础设施
复现总评⭐⭐⭐⭐算法极简,瓶颈在并行推理资源

4.2 工业落地可行性

  • 适用场景: 快速 post-training 原型验证、去中心化/隐私敏感场景下的模型微调、测试时间增强
  • 性能开销: 推理时 KK 倍前向传播是核心代价,可通过蒸馏缓解(额外 2% 训练成本)
  • 集成难度: 极低——不需要修改模型架构,只需要能做推理和存储种子
  • 风险点: 格式修复 vs 真正推理改进的比例令人担忧;对结构化输出任务效果未知
  • 落地总评: ⭐⭐⭐(作为独立 post-training 方法受限于推理成本,但作为研究工具和理论贡献价值极高)

五、SOTA 对照矩阵

方法核心思路Countdown (7B)GSM8K (3B)训练步数并行性
RandOpt (K=50)随机扰动 + 投票~70%87.1% (ensemble)O(1)完全并行
GRPO在线采样 + reward 加权~79% (TT-MV)竞争性O(T), T~500部分
PPO策略梯度 + critic~79% (TT-MV)竞争性O(T)部分
ES进化策略~79% (TT-MV)竞争性O(T)
RandOpt 蒸馏随机扰动 → SFT84.3% (单模型)O(1) + 少量 SFT完全并行

位置评估: 这不是增量改进,而是范式洞察——它揭示了 post-training 之所以有效的根本原因可能不是优化算法聪明,而是预训练已经把答案放在了附近。RandOpt 作为方法有局限(推理成本),但作为诊断工具和理论贡献意义深远。


六、讨论与局限

6.1 论文自身讨论的局限

  • 需要预训练: 从零开始的模型 RandOpt 完全无效
  • 推理成本: 需要 K>1K>1 次前向传播,增加推理延迟
  • 多数投票局限: 仅适用于离散答案(数字、选项),对结构化生成(写作、代码)难以直接应用
  • 性能天花板:NN 和模型规模的提升存在饱和,更大改进可能需要”走出灌木丛”

6.2 我的额外观察

  1. 格式修复占比高达 19% 令人警惕: 这意味着当前 benchmark 分数中有相当比例实际上不反映推理能力改进。如果排除格式因素,RandOpt 和 GRPO 的真实推理提升差距可能更小。

  2. “Sandbagging”假说值得更多关注: 论文虽然通过 OLMo(开源训练流程)排除了有意 sandbagging,但无意的 alignment tax(对齐税)——即 RLHF 过程中压抑了某些能力——是否存在?如果是,RandOpt 的效果可能部分来自”绕过”了对齐约束。

  3. 与 MCTS 蒸馏的对比缺失: Tree Search Distillation(本期新闻报道的另一项工作)展示了 MCTS 能突破 GRPO 的 reward ceiling。如果 RandOpt 也能匹配 GRPO 水平,那 MCTS 蒸馏 vs RandOpt 的对比会非常有意思——前者在输出空间搜索更好的轨迹,后者在权重空间搜索更好的模型。

  4. 对 LoRA 的深层启示: 如果预训练权重周围密集分布着任务专家,而 LoRA 限制更新在低秩子空间——那 LoRA 之所以有效,可能恰恰是因为它在正确的维度上”走向”了最近的专家解。Neural Thickets 提供了一个几何解释。


七、对我们的启示

谁应该关注这篇论文?

  • 做 post-training / alignment 研究的人——这改变了你对 post-training 本质的理解
  • 做 inference optimization 的人——集成 + 蒸馏的思路有实用价值
  • 做 pretraining 的人——预训练的目标不只是找到好的参数点,而是找到一个好的参数区域

核心 takeaway:

  1. Post-training 的本质可能是选择而非创造: 好的解已经在预训练权重的邻域中——GRPO/PPO 的功能可能更多是”选择”它们而不是”从头构建”
  2. 解的密度和多样性随模型规模 scaling: 这是 scaling laws 的一个新维度——不只是 loss 随参数量下降,好解的密度也在上升
  3. 3.2 分钟 post-training: 如果你有 200 GH200,RandOpt 可以在几分钟内完成 post-training
  4. 格式 vs 推理: 当前 benchmark 上相当比例的”性能提升”来自格式修复而非真正的推理改进

实践建议:

  1. 用 RandOpt 作为 post-training 的 baseline 和诊断工具——如果你的方法不比随机猜测+投票好太多,说明你可能只是在做选择而非真正的学习
  2. 在你的 post-training pipeline 中加入格式修复的归因分析——区分”推理灌木丛”和”格式灌木丛”的贡献
  3. 考虑在推理时使用轻量级的参数扰动集成作为性能增强手段

论文速查卡

项目内容
标题Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
作者Yulu Gan, MIT
链接arXiv:2603.12228
发表预印本
一句话总结大模型预训练权重的局部邻域中密集分布着多样化的任务专家,随机扰动+投票即可做有效 post-training
大白话版想象你在做考试——老师已经把所有正确答案藏在试卷的字缝里了。模型越大,字缝越宽,你闭着眼睛随便指都能指到答案。然后让 50 个这样闭眼指的人投票,答案就出来了
核心数字3.2 分钟 / 200 GH200 完成 post-training;格式修复占性能提升的 19%
复现评级⭐⭐⭐⭐
落地评级⭐⭐⭐