AI Research

Neural Thickets：预训练权重邻域中藏着密集的任务专家——随机猜测竟能媲美 PPO/GRPO

论文：Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

作者：Yulu Gan (MIT) 等

一句话：大模型预训练后，它的参数邻域里挤满了各种任务的”专家”版本——你甚至可以靠随机猜参数+投票来做 post-training，效果媲美 PPO 和 GRPO。

一、这篇论文在解决什么问题

1.1 背景

Post-training（后训练）是当前 LLM 工作流中不可或缺的一环：预训练模型拿到后，还需要通过 RLHF（PPO）、GRPO、ES 等方法进行对齐和能力强化。这些方法都是迭代优化——需要多轮梯度更新、策略采样、reward 计算。

一个根本性的问题是：post-training 之所以有效，是因为优化算法聪明，还是因为预训练已经把好的解摆在了”附近”？

“随机猜参数”在传统观念中被认为是不可能有效的——Schmidhuber、Hochreiter、Bengio 在 2001 年就说过”random guessing cannot be viewed as a reasonable learning algorithm”。

1.2 核心问题

论文提出三个递进的研究问题：

预训练权重的局部邻域中，能提升下游任务性能的解有多”密集”？
这些局部解是”全能型”还是”专家型”——它们在不同任务上的表现是相关还是独立的？
如果密度足够高、多样性足够强，随机猜测+集成是否可以作为一种有效的 post-training 方法？

二、方法：怎么解决的

2.1 核心 Insight

预训练不只是找到了一个好的参数点——它找到了一个被密集任务专家包围的参数区域。 在大模型中，这些专家的密度高到随机采样就能以合理概率命中。

更精确地说：

小模型处于”大海捞针”体制（needle in a haystack）——好的解稀疏，必须靠梯度下降这种结构化搜索
大模型进入”灌木丛”体制（thicket regime）——好的解密集，随机猜就能找到
这些解还是专家型的——不同的随机扰动擅长不同的任务

2.2 技术细节

解密度的定义与测量

定义 Solution Density $\delta(m)$ 为随机高斯扰动提升任务得分至少 $m$ 的概率：

$\delta(m) = \mathbb{P}_{\epsilon \sim \mathcal{N}(0, \sigma^2 I)}[s(\theta + \epsilon) \geq s(\theta) + m]$

其中 $\sigma = 0.005$ 。直觉：这是”随机猜一下就猜对”的概率。

关键实验： 在 Qwen2.5 系列（0.5B → 32B）上测量，对 1000 个随机扰动计算准确率变化：

0.5B 模型：周围几乎全是蓝色（性能下降），预训练权重在局部最大值
7B 模型：周围开始出现红色区域（性能提升）
32B 模型：周围大片红色，预训练权重反而在一个”低谷”中

$\delta(m)$ 随模型规模单调递增，即使设定 $m = +5\%$ 的高门槛也成立。

解多样性的定义与测量

定义 Spectral Discordance $\mathcal{D}$ 来衡量不同扰动在不同任务上的表现是否相关：

$\mathcal{D} = 1 - \frac{1}{M(M-1)} \sum_{j \neq k} C_{jk}$

其中 $C_{jk}$ 是任务 $j$ 和 $k$ 之间的 Pearson 相关系数。 $\mathcal{D} \to 1$ 表示完全专家化， $\mathcal{D} \to 0$ 表示全能型。

结果： $\mathcal{D}$ 也随模型规模单调递增——大模型周围的解不仅多，而且更加多样化。

RandOpt 算法

既然好的解密集且多样，就可以用最简单的方式利用它们：

训练（随机猜测）： 采样 $N$ 个高斯扰动 $\theta_i = \theta + \sigma \cdot \epsilon(s_i)$ ，在训练集上评估，选出 top- $K$
推理（集成）： 对测试输入，用 top- $K$ 个模型各自生成答案，多数投票

# 训练阶段：O(1) 步
scores = [evaluate(theta + sigma * eps(seed[i]), D_train) for i in range(N)]
top_indices = topk(scores, K).indices

# 推理阶段：K 次前向传播
answers = [generate(theta + sigma * eps(seed[i]), x) for i in top_indices]
prediction = majority_vote(answers)

2.3 方法对比

方法	优化步数	并行性	通信量	推理开销
PPO	$T$ （数百步）	部分并行	高（梯度同步）	1x
GRPO	$T$ （数百步）	部分并行	高	1x
ES	$T$ （数百步）	高	$T$ 次分数同步	1x
RandOpt	1（零梯度步）	完全并行	1 次分数同步	$K$ x

三、实验结果

3.1 实验设置

模型： Qwen2.5（0.5B-8B）、Llama、OLMo3，含 base 和 instruct 变体
任务： 数学（Countdown, GSM8K, MATH-500, OlympiadBench）、代码（MBPP）、写作（ROCStories）、化学（USPTO）
基线： PPO、GRPO、ES，所有方法在相同训练 FLOPs 下比较
RandOpt 设置： $N = 5000$ , $K = 50$

3.2 主要结果

LLM 实验： RandOpt（ $K=50$ ）在大多数模型规模和任务类别上匹配或超越 PPO/GRPO/ES。

关键数字：

OLMo-3-7B-Instruct 在 Countdown 上：RandOpt 200 GH200 训练 3.2 分钟达到 70% 准确率
Qwen2.5-3B-Inst 在 GSM8K 上：RandOpt 蒸馏后 84.3% vs Base 79.8%（+4.5%）
VLM（Qwen2.5-VL-3B-Inst）在 GQA 上：RandOpt 从 56.6% → 69.0%（+12.4%）

集成的重要性： $K=1$ 时效果显著弱于 $K=50$ 。集成对所有方法都有帮助——但 RandOpt 天然产出多样化的模型集合。

3.3 消融实验

性能来源分解（GSM8K, Qwen2.5-3B-Inst）：

来源	RandOpt (K=50)	GRPO
保持正确	基础部分	基础部分
推理改进（原错改对）	12.3%	有贡献
格式修复（答案对但格式错）	19.0%	也有贡献
回退（原对变错）	0.7%	—

重要发现：性能提升不全是推理改进——格式修复占了相当大的比例。 这对 GRPO 等方法同样成立。

Scaling 行为：

GPT-2 0.1B：RandOpt 无效（密度太低）
Qwen 0.5B：微弱提升
~1.5B 参数： RandOpt 效果开始急剧上升——这是”灌木丛”体制的入口
从零开始（无预训练）：RandOpt 在所有规模上都无效——预训练是前提条件

四、复现与落地评估

4.1 复现难度评估

维度	评级	说明
代码开源	✅	GitHub 完整开源
数据可得性	✅	使用公开 benchmark（GSM8K、MATH-500 等）
算力需求	中-高	N=5000 次前向传播需要多卡并行；200 GH200 完成仅需 3.2 分钟
依赖复杂度	低	只需推理能力，无需训练基础设施
复现总评	⭐⭐⭐⭐	算法极简，瓶颈在并行推理资源

4.2 工业落地可行性

适用场景： 快速 post-training 原型验证、去中心化/隐私敏感场景下的模型微调、测试时间增强
性能开销： 推理时 $K$ 倍前向传播是核心代价，可通过蒸馏缓解（额外 2% 训练成本）
集成难度： 极低——不需要修改模型架构，只需要能做推理和存储种子
风险点： 格式修复 vs 真正推理改进的比例令人担忧；对结构化输出任务效果未知
落地总评： ⭐⭐⭐（作为独立 post-training 方法受限于推理成本，但作为研究工具和理论贡献价值极高）

五、SOTA 对照矩阵

方法	核心思路	Countdown (7B)	GSM8K (3B)	训练步数	并行性
RandOpt (K=50)	随机扰动 + 投票	~70%	87.1% (ensemble)	O(1)	完全并行
GRPO	在线采样 + reward 加权	~79% (TT-MV)	竞争性	O(T), T~500	部分
PPO	策略梯度 + critic	~79% (TT-MV)	竞争性	O(T)	部分
ES	进化策略	~79% (TT-MV)	竞争性	O(T)	高
RandOpt 蒸馏	随机扰动 → SFT	—	84.3% (单模型)	O(1) + 少量 SFT	完全并行

位置评估： 这不是增量改进，而是范式洞察——它揭示了 post-training 之所以有效的根本原因可能不是优化算法聪明，而是预训练已经把答案放在了附近。RandOpt 作为方法有局限（推理成本），但作为诊断工具和理论贡献意义深远。

六、讨论与局限

6.1 论文自身讨论的局限

需要预训练： 从零开始的模型 RandOpt 完全无效
推理成本： 需要 $K>1$ 次前向传播，增加推理延迟
多数投票局限： 仅适用于离散答案（数字、选项），对结构化生成（写作、代码）难以直接应用
性能天花板： 随 $N$ 和模型规模的提升存在饱和，更大改进可能需要”走出灌木丛”

6.2 我的额外观察

格式修复占比高达 19% 令人警惕： 这意味着当前 benchmark 分数中有相当比例实际上不反映推理能力改进。如果排除格式因素，RandOpt 和 GRPO 的真实推理提升差距可能更小。
“Sandbagging”假说值得更多关注： 论文虽然通过 OLMo（开源训练流程）排除了有意 sandbagging，但无意的 alignment tax（对齐税）——即 RLHF 过程中压抑了某些能力——是否存在？如果是，RandOpt 的效果可能部分来自”绕过”了对齐约束。
与 MCTS 蒸馏的对比缺失： Tree Search Distillation（本期新闻报道的另一项工作）展示了 MCTS 能突破 GRPO 的 reward ceiling。如果 RandOpt 也能匹配 GRPO 水平，那 MCTS 蒸馏 vs RandOpt 的对比会非常有意思——前者在输出空间搜索更好的轨迹，后者在权重空间搜索更好的模型。
对 LoRA 的深层启示： 如果预训练权重周围密集分布着任务专家，而 LoRA 限制更新在低秩子空间——那 LoRA 之所以有效，可能恰恰是因为它在正确的维度上”走向”了最近的专家解。Neural Thickets 提供了一个几何解释。

七、对我们的启示

谁应该关注这篇论文？

做 post-training / alignment 研究的人——这改变了你对 post-training 本质的理解
做 inference optimization 的人——集成 + 蒸馏的思路有实用价值
做 pretraining 的人——预训练的目标不只是找到好的参数点，而是找到一个好的参数区域

核心 takeaway：

Post-training 的本质可能是选择而非创造： 好的解已经在预训练权重的邻域中——GRPO/PPO 的功能可能更多是”选择”它们而不是”从头构建”
解的密度和多样性随模型规模 scaling： 这是 scaling laws 的一个新维度——不只是 loss 随参数量下降，好解的密度也在上升
3.2 分钟 post-training： 如果你有 200 GH200，RandOpt 可以在几分钟内完成 post-training
格式 vs 推理： 当前 benchmark 上相当比例的”性能提升”来自格式修复而非真正的推理改进

实践建议：

用 RandOpt 作为 post-training 的 baseline 和诊断工具——如果你的方法不比随机猜测+投票好太多，说明你可能只是在做选择而非真正的学习
在你的 post-training pipeline 中加入格式修复的归因分析——区分”推理灌木丛”和”格式灌木丛”的贡献
考虑在推理时使用轻量级的参数扰动集成作为性能增强手段

论文速查卡

项目	内容
标题	Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
作者	Yulu Gan, MIT
链接	arXiv:2603.12228
发表	预印本
一句话总结	大模型预训练权重的局部邻域中密集分布着多样化的任务专家，随机扰动+投票即可做有效 post-training
大白话版	想象你在做考试——老师已经把所有正确答案藏在试卷的字缝里了。模型越大，字缝越宽，你闭着眼睛随便指都能指到答案。然后让 50 个这样闭眼指的人投票，答案就出来了
核心数字	3.2 分钟 / 200 GH200 完成 post-training；格式修复占性能提升的 19%
复现评级	⭐⭐⭐⭐
落地评级	⭐⭐⭐