Neural Thickets:预训练权重邻域中藏着密集的任务专家——随机猜测竟能媲美 PPO/GRPO
Neural Thickets:预训练权重邻域中藏着密集的任务专家——随机猜测竟能媲美 PPO/GRPO
论文:Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
作者:Yulu Gan (MIT) 等
一句话:大模型预训练后,它的参数邻域里挤满了各种任务的”专家”版本——你甚至可以靠随机猜参数+投票来做 post-training,效果媲美 PPO 和 GRPO。
一、这篇论文在解决什么问题
1.1 背景
Post-training(后训练)是当前 LLM 工作流中不可或缺的一环:预训练模型拿到后,还需要通过 RLHF(PPO)、GRPO、ES 等方法进行对齐和能力强化。这些方法都是迭代优化——需要多轮梯度更新、策略采样、reward 计算。
一个根本性的问题是:post-training 之所以有效,是因为优化算法聪明,还是因为预训练已经把好的解摆在了”附近”?
“随机猜参数”在传统观念中被认为是不可能有效的——Schmidhuber、Hochreiter、Bengio 在 2001 年就说过”random guessing cannot be viewed as a reasonable learning algorithm”。
1.2 核心问题
论文提出三个递进的研究问题:
- 预训练权重的局部邻域中,能提升下游任务性能的解有多”密集”?
- 这些局部解是”全能型”还是”专家型”——它们在不同任务上的表现是相关还是独立的?
- 如果密度足够高、多样性足够强,随机猜测+集成是否可以作为一种有效的 post-training 方法?
二、方法:怎么解决的
2.1 核心 Insight
预训练不只是找到了一个好的参数点——它找到了一个被密集任务专家包围的参数区域。 在大模型中,这些专家的密度高到随机采样就能以合理概率命中。
更精确地说:
- 小模型处于”大海捞针”体制(needle in a haystack)——好的解稀疏,必须靠梯度下降这种结构化搜索
- 大模型进入”灌木丛”体制(thicket regime)——好的解密集,随机猜就能找到
- 这些解还是专家型的——不同的随机扰动擅长不同的任务
2.2 技术细节
解密度的定义与测量
定义 Solution Density 为随机高斯扰动提升任务得分至少 的概率:
其中 。直觉:这是”随机猜一下就猜对”的概率。
关键实验: 在 Qwen2.5 系列(0.5B → 32B)上测量,对 1000 个随机扰动计算准确率变化:
- 0.5B 模型:周围几乎全是蓝色(性能下降),预训练权重在局部最大值
- 7B 模型:周围开始出现红色区域(性能提升)
- 32B 模型:周围大片红色,预训练权重反而在一个”低谷”中
随模型规模单调递增,即使设定 的高门槛也成立。
解多样性的定义与测量
定义 Spectral Discordance 来衡量不同扰动在不同任务上的表现是否相关:
其中 是任务 和 之间的 Pearson 相关系数。 表示完全专家化, 表示全能型。
结果: 也随模型规模单调递增——大模型周围的解不仅多,而且更加多样化。
RandOpt 算法
既然好的解密集且多样,就可以用最简单的方式利用它们:
- 训练(随机猜测): 采样 个高斯扰动 ,在训练集上评估,选出 top-
- 推理(集成): 对测试输入,用 top- 个模型各自生成答案,多数投票
# 训练阶段:O(1) 步
scores = [evaluate(theta + sigma * eps(seed[i]), D_train) for i in range(N)]
top_indices = topk(scores, K).indices
# 推理阶段:K 次前向传播
answers = [generate(theta + sigma * eps(seed[i]), x) for i in top_indices]
prediction = majority_vote(answers)
2.3 方法对比
| 方法 | 优化步数 | 并行性 | 通信量 | 推理开销 |
|---|---|---|---|---|
| PPO | (数百步) | 部分并行 | 高(梯度同步) | 1x |
| GRPO | (数百步) | 部分并行 | 高 | 1x |
| ES | (数百步) | 高 | 次分数同步 | 1x |
| RandOpt | 1(零梯度步) | 完全并行 | 1 次分数同步 | x |
三、实验结果
3.1 实验设置
- 模型: Qwen2.5(0.5B-8B)、Llama、OLMo3,含 base 和 instruct 变体
- 任务: 数学(Countdown, GSM8K, MATH-500, OlympiadBench)、代码(MBPP)、写作(ROCStories)、化学(USPTO)
- 基线: PPO、GRPO、ES,所有方法在相同训练 FLOPs 下比较
- RandOpt 设置: ,
3.2 主要结果
LLM 实验: RandOpt()在大多数模型规模和任务类别上匹配或超越 PPO/GRPO/ES。
关键数字:
- OLMo-3-7B-Instruct 在 Countdown 上:RandOpt 200 GH200 训练 3.2 分钟达到 70% 准确率
- Qwen2.5-3B-Inst 在 GSM8K 上:RandOpt 蒸馏后 84.3% vs Base 79.8%(+4.5%)
- VLM(Qwen2.5-VL-3B-Inst)在 GQA 上:RandOpt 从 56.6% → 69.0%(+12.4%)
集成的重要性: 时效果显著弱于 。集成对所有方法都有帮助——但 RandOpt 天然产出多样化的模型集合。
3.3 消融实验
性能来源分解(GSM8K, Qwen2.5-3B-Inst):
| 来源 | RandOpt (K=50) | GRPO |
|---|---|---|
| 保持正确 | 基础部分 | 基础部分 |
| 推理改进(原错改对) | 12.3% | 有贡献 |
| 格式修复(答案对但格式错) | 19.0% | 也有贡献 |
| 回退(原对变错) | 0.7% | — |
重要发现:性能提升不全是推理改进——格式修复占了相当大的比例。 这对 GRPO 等方法同样成立。
Scaling 行为:
- GPT-2 0.1B:RandOpt 无效(密度太低)
- Qwen 0.5B:微弱提升
- ~1.5B 参数: RandOpt 效果开始急剧上升——这是”灌木丛”体制的入口
- 从零开始(无预训练):RandOpt 在所有规模上都无效——预训练是前提条件
四、复现与落地评估
4.1 复现难度评估
| 维度 | 评级 | 说明 |
|---|---|---|
| 代码开源 | ✅ | GitHub 完整开源 |
| 数据可得性 | ✅ | 使用公开 benchmark(GSM8K、MATH-500 等) |
| 算力需求 | 中-高 | N=5000 次前向传播需要多卡并行;200 GH200 完成仅需 3.2 分钟 |
| 依赖复杂度 | 低 | 只需推理能力,无需训练基础设施 |
| 复现总评 | ⭐⭐⭐⭐ | 算法极简,瓶颈在并行推理资源 |
4.2 工业落地可行性
- 适用场景: 快速 post-training 原型验证、去中心化/隐私敏感场景下的模型微调、测试时间增强
- 性能开销: 推理时 倍前向传播是核心代价,可通过蒸馏缓解(额外 2% 训练成本)
- 集成难度: 极低——不需要修改模型架构,只需要能做推理和存储种子
- 风险点: 格式修复 vs 真正推理改进的比例令人担忧;对结构化输出任务效果未知
- 落地总评: ⭐⭐⭐(作为独立 post-training 方法受限于推理成本,但作为研究工具和理论贡献价值极高)
五、SOTA 对照矩阵
| 方法 | 核心思路 | Countdown (7B) | GSM8K (3B) | 训练步数 | 并行性 |
|---|---|---|---|---|---|
| RandOpt (K=50) | 随机扰动 + 投票 | ~70% | 87.1% (ensemble) | O(1) | 完全并行 |
| GRPO | 在线采样 + reward 加权 | ~79% (TT-MV) | 竞争性 | O(T), T~500 | 部分 |
| PPO | 策略梯度 + critic | ~79% (TT-MV) | 竞争性 | O(T) | 部分 |
| ES | 进化策略 | ~79% (TT-MV) | 竞争性 | O(T) | 高 |
| RandOpt 蒸馏 | 随机扰动 → SFT | — | 84.3% (单模型) | O(1) + 少量 SFT | 完全并行 |
位置评估: 这不是增量改进,而是范式洞察——它揭示了 post-training 之所以有效的根本原因可能不是优化算法聪明,而是预训练已经把答案放在了附近。RandOpt 作为方法有局限(推理成本),但作为诊断工具和理论贡献意义深远。
六、讨论与局限
6.1 论文自身讨论的局限
- 需要预训练: 从零开始的模型 RandOpt 完全无效
- 推理成本: 需要 次前向传播,增加推理延迟
- 多数投票局限: 仅适用于离散答案(数字、选项),对结构化生成(写作、代码)难以直接应用
- 性能天花板: 随 和模型规模的提升存在饱和,更大改进可能需要”走出灌木丛”
6.2 我的额外观察
-
格式修复占比高达 19% 令人警惕: 这意味着当前 benchmark 分数中有相当比例实际上不反映推理能力改进。如果排除格式因素,RandOpt 和 GRPO 的真实推理提升差距可能更小。
-
“Sandbagging”假说值得更多关注: 论文虽然通过 OLMo(开源训练流程)排除了有意 sandbagging,但无意的 alignment tax(对齐税)——即 RLHF 过程中压抑了某些能力——是否存在?如果是,RandOpt 的效果可能部分来自”绕过”了对齐约束。
-
与 MCTS 蒸馏的对比缺失: Tree Search Distillation(本期新闻报道的另一项工作)展示了 MCTS 能突破 GRPO 的 reward ceiling。如果 RandOpt 也能匹配 GRPO 水平,那 MCTS 蒸馏 vs RandOpt 的对比会非常有意思——前者在输出空间搜索更好的轨迹,后者在权重空间搜索更好的模型。
-
对 LoRA 的深层启示: 如果预训练权重周围密集分布着任务专家,而 LoRA 限制更新在低秩子空间——那 LoRA 之所以有效,可能恰恰是因为它在正确的维度上”走向”了最近的专家解。Neural Thickets 提供了一个几何解释。
七、对我们的启示
谁应该关注这篇论文?
- 做 post-training / alignment 研究的人——这改变了你对 post-training 本质的理解
- 做 inference optimization 的人——集成 + 蒸馏的思路有实用价值
- 做 pretraining 的人——预训练的目标不只是找到好的参数点,而是找到一个好的参数区域
核心 takeaway:
- Post-training 的本质可能是选择而非创造: 好的解已经在预训练权重的邻域中——GRPO/PPO 的功能可能更多是”选择”它们而不是”从头构建”
- 解的密度和多样性随模型规模 scaling: 这是 scaling laws 的一个新维度——不只是 loss 随参数量下降,好解的密度也在上升
- 3.2 分钟 post-training: 如果你有 200 GH200,RandOpt 可以在几分钟内完成 post-training
- 格式 vs 推理: 当前 benchmark 上相当比例的”性能提升”来自格式修复而非真正的推理改进
实践建议:
- 用 RandOpt 作为 post-training 的 baseline 和诊断工具——如果你的方法不比随机猜测+投票好太多,说明你可能只是在做选择而非真正的学习
- 在你的 post-training pipeline 中加入格式修复的归因分析——区分”推理灌木丛”和”格式灌木丛”的贡献
- 考虑在推理时使用轻量级的参数扰动集成作为性能增强手段
论文速查卡
| 项目 | 内容 |
|---|---|
| 标题 | Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights |
| 作者 | Yulu Gan, MIT |
| 链接 | arXiv:2603.12228 |
| 发表 | 预印本 |
| 一句话总结 | 大模型预训练权重的局部邻域中密集分布着多样化的任务专家,随机扰动+投票即可做有效 post-training |
| 大白话版 | 想象你在做考试——老师已经把所有正确答案藏在试卷的字缝里了。模型越大,字缝越宽,你闭着眼睛随便指都能指到答案。然后让 50 个这样闭眼指的人投票,答案就出来了 |
| 核心数字 | 3.2 分钟 / 200 GH200 完成 post-training;格式修复占性能提升的 19% |
| 复现评级 | ⭐⭐⭐⭐ |
| 落地评级 | ⭐⭐⭐ |