News

ERNIE 5.1 Officially Released! Topping Multiple Leaderboards — A Model That Writes Better and Understands You More

原文链接：https://ernie.baidu.com/blog/posts/ernie-5.1-0508-release/ 交叉信源：https://www.qbitai.com/2026/05/414496.html 来源：ERNIE Blog / 百度发布日期：2026-05-09

速查卡

项目	内容
一句话总结	百度把 ERNIE 5.0 的弹性预训练底座、全异步 RL 基建和多阶段 OPD 后训练拼到一起，用同规模模型约 6% 的预训练成本做出一代 Agent/搜索/推理更强的新旗舰。
大白话版	文心 5.1 不是简单“小改版”，而是百度在说：我可以不用再按老办法把每个模型单独重训，而是先训出一个可弹性伸缩的大底座，再抽出最优子网，并用一套更像“训练工厂”的 RL 流水线把 Agent、推理、创作能力统一灌进去。
核心要点	• 总参数压到 ERNIE 5.0 的约 1/3、激活参数压到约 1/2 • 同规模模型预训练成本约 6% • Arena Search 1223 分，全球第 4、国产第 1 • AIME26(with tool use) 99.6，官方称仅次于 Gemini 3.1 Pro
价值评级	A = 必读级
适用场景	关注国产闭源基础模型、Agent 基础设施、低成本训练范式、企业搜索/知识系统的人都该读

文章背景

这篇文章重要，不只是因为“百度又发新模型”，而是因为它出现在一个很敏感的时间点：

中国基础模型已经从“单纯比参数、比 benchmark”进入“比训练效率、比企业可部署性、比 Agent 能力”的阶段。
OpenAI、Anthropic、Google 在海外把竞争焦点往 agent、tool use、深度搜索、长链路工作流推，百度这里明显是在给出中文版答案。
文心 5.0 已经先把 Once-For-All 弹性训练、超大统一多模态底座的方向铺好，5.1 则开始兑现“如何把那套昂贵底座变成更便宜、但仍能打的产品代模型”。

所以这不是一篇营销稿那么简单，它本质上是在回答三个问题：

百度怎么把 5.0 的大底座知识继承下来？
百度怎么解决 Agent/RL 训练里最烧钱、最不稳定的系统问题？
百度怎么把 code/reasoning/agent/creative 这些相互打架的能力放进同一个模型，又尽量避免“跷跷板效应”？

完整内容还原

开场结论：5.1 是一代“成本-能力比”模型

原文第一段就把定位说得很直白：ERNIE 5.1 继承 ERNIE 5.0 的预训练基础，但把总参数压缩到约 1/3、激活参数压缩到约 1/2，同时仍在同规模模型中保持领先基础效果，而预训练成本只要同类模型约 6%。

这句话其实有三层意思：

不是从零训一个新模型，而是“继承 5.0 的知识与能力”。
压缩的不是一个小比例，而是对总参数和 active params 都动了大手术。
成本口径不是“比上一代便宜一点”，而是直接强调“同规模模型只用 6% 成本”。这意味着百度最想卖的，不只是榜单分数，而是工业化训练效率。

能力层：百度先端出了能打的 benchmark 结果

官方给出的第一组结果围绕 Agent、知识、推理、深度搜索展开：

在 τ³-bench 和 SpreadsheetBench-Verified 上，ERNIE 5.1 超过 DeepSeek-V4-Pro，官方口径是 Agent 能力接近领先闭源模型。
在 Search Arena 上，ERNIE 5.1 得分 1223，全球第 4、国产第 1。
在 GPQA 和 MMLU-Pro 上，官方称世界知识能力接近领先闭源模型。
在 AIME26（with tool use）上得分 99.6，官方称仅次于 Gemini 3.1 Pro。
在内部评测里，创意写作能力接近 Gemini 3.1 Pro。

这里最该注意的是排序，不是单看某一个分数。百度把“Agent、Search、Reasoning、Creative”放在同一个能力包里呈现，说明它定义的 5.1 已经不是单纯聊天模型，而是面向“复杂工作流执行 + 世界知识检索 + 生成输出”的综合底座。

技术特征 1：多维弹性预训练，不是裁剪，而是先训一棵大树再抽最优子网

这是全篇最关键的技术段。

百度说 ERNIE 5.1 来源于 ERNIE 5.0 的 multi-dimensional elastic sub-model matrix，也就是先在 ERNIE 5.0 时代通过 Once-For-All elastic training framework，一次预训练同时联合优化大量不同深度、不同 expert capacity、不同 routing sparsity 的子模型，再从中抽取最优子网。

和传统做法相比，差异非常大：

传统做法：不同模型规模各训各的，每个尺寸一条训练线。
文心 5.x 做法：先训一个“可弹性伸缩的大母体”，让多个尺寸共享权重与知识，再从这个矩阵里选最优子网。

原文把这套弹性拆成三维：

Elastic depth
- 训练中随机改变 active Transformer layers 数量。
- 让不同深度的子模型共享权重。
- 目的：让模型自己学会深层表示与浅层表示的平衡。
Elastic width / expert capacity
- 在 MoE 层里动态调整参与 routing 的 expert 数量。
- 通过动态采样不同 expert 子集，让模型适应 full expert pool 和 reduced expert pool 两种状态。
- 目标是提高 expert utilization efficiency。
Elastic sparsity
- 通过 variable Top-k routing，灵活改变被激活的 expert 数量。
- 激活更少 expert：推理更便宜、解码更快。
- 激活更多 expert：模型能力更强。
- 本质上是在 inference overhead 与 performance 之间做动态 trade-off。

这三维合起来，意味着百度不是简单做“蒸馏小模型”，而是在训练阶段就把“模型尺寸可变、路由稀疏度可变、激活代价可变”编码进底座本身。这样 5.1 不是外部压缩结果，而是 5.0 训练范式天然允许“抽一个更高性价比的工作点”。

技术特征 2：全异步、解耦式强化学习训练基建，瞄准的是长链路 Agent 训练

原文第二大块讲的是 RL 基础设施，信息密度很高。

百度在 PaddlePaddle 上做了一个 disaggregated reinforcement learning infrastructure，核心是一个 RL Controller，把四个子系统完全解耦：

training
inference
reward
agent loop

并通过网络化高性能数据组件互联，实现 control plane 与 data plane 分离。

这件事的价值在于什么？

传统 RL/agent training 的问题不是只靠“再多堆几张卡”能解：

训练、推理、奖励计算资源类型不同
agent loop 有大量长尾任务，资源利用率很不均匀
训练与推理精度不一致、路由不一致，会导致 rollout 不稳定

百度这套架构的解法是：

每个子系统独立部署、独立扩缩容
inference/training/reward 可以流水线重叠
不同环节按最优算力配置匹配

这等于把 RL 训练从“一个大一统作业”改造成“可调度的分布式工厂”。

技术特征 3：FP8 训推一致性优化，重点不是省显存，而是减少 RL 里最致命的偏差

原文特别提到两类优化：

unified FP8 low-precision operator library
Rollout Router Replay（R3）优化

直觉上，很多人看 FP8 会以为只是压成本，但这篇文章强调的重点不是“便宜”，而是“训练-推理一致性”。

在 RL，尤其是 MoE + 长链路 agentic RL 里，如果训练时看到的分布和推理 rollout 时的分布不一致，梯度信号就会被噪音污染，模型会越来越不稳。百度说他们通过：

two-stage 计算-通信重叠
dynamic bit-width communication compression
multi-level KV-cache pooling

把 R3 的附加延迟压到接近零，同时把 K3 KL divergence 降低 50%。

虽然原文没有把 K3 的精确定义展开，但信息已经足够明确：百度在强调，它不是只把 RL 训起来，而是在解决“MoE 路由 + 低精度 + rollout 链路”之间的分布偏差问题。这种问题如果不解决，Agent benchmark 再好也很容易在长链任务里失稳。

技术特征 4：异构弹性资源调度，把闲置 CPU 也拉进 Agent 训练流水线

这是一个很工程、但很值钱的点。

原文明确写到：他们用 elastic CPU pooling，把集群里闲置 CPU 资源用于 code sandboxes 和 verifiers 这类 logic-intensive computations，从而降低 training iteration time。

这说明百度训练的是“真 agent 模型”，不是纯 token prediction 模型。因为一旦进入 code sandbox、verifier、tool execution 这类环节，很多开销并不在 GPU 上，而是在 CPU、网络、IO、调度层。

也就是说，百度现在优化的对象不再只是 Transformer 前向/反向本身，而是完整的 agent training pipeline 吞吐率。

技术特征 5：多阶段 RL 管线，以 OPD/MOPD 解决“多能力彼此打架”的老问题

这是原文另一条很硬的技术主线。

百度的判断是：传统后训练按 SFT → Mixed RL 顺序一条线跑，已经越来越难满足大模型能力扩张，因为：

研发迭代太慢
所有能力在一个训练阶段硬融合，会发生严重 multi-objective optimization conflicts
一个能力上升，另一个能力容易回退，出现 seesaw effect

他们提出的方案是以 Multi-Teacher On-Policy Distillation（文中后文具体写作 OPD stage，实质是多教师 on-policy 蒸馏）为中心的四阶段后训练：

Stage 1: Unified SFT
- 用高质量多域指令数据做统一 SFT。
- 目标：打好 instruction following 和 tool invocation 底座。
Stage 2: Domain Expert Model Training
- code、reasoning、agentic tasks 等多条能力线并行训练专家模型。
- 每个方向单独定 reward 和算法。
- 目的：避免异构任务互相干扰。
Stage 3: On-Policy Distillation (OPD)
- 统一 SFT 模型做 student。
- 多个领域专家做 teachers。
- student 从自己的 policy 分布采样，再通过 token-level reverse KL 从多个 teacher 学能力。
- 目的：把不同专家能力并到统一参数空间里。
Stage 4: General Online RL
- 对开放式聊天、创意写作这类高熵任务，不强行用 OPD 蒸馏。
- 直接在 post-OPD 模型上做 online RL。
- 目的：保住 instruction-following、生成多样性和人类偏好对齐，同时不破坏前面学到的专家能力。

这里最有价值的洞察是：百度承认“不是所有能力都适合蒸馏整合”。

高熵任务如果硬做 token-level KL，很容易被过度平滑，导致创作和通用对话味道被磨平。于是他们把“专家能力融合”和“开放式通用能力调优”拆开做。这个决策相当成熟，说明他们不是只会往一个 loss 里塞所有目标。

创意能力段落：官方在证明自己不是只有工程，不是只会写 benchmark

原文最后一块讲创作能力，提到：

创意写作中“灵感—情感—表达”的对齐
长叙事里“逻辑—人物—节奏”的协调控制
专业内容中“知识准确性—风格适配性”的平衡

这一段当然带有营销色彩，但也有一个技术信号：百度已经把 creative quality 看成底座模型的正式 KPI，而不是附带能力。对企业内容平台、写作工具、营销生成器来说，这会直接影响模型选型。

核心技术洞察

1. 真正有价值的不是“模型更小”，而是“训练范式可弹性复用”

ERNIE 5.1 的关键不只是把参数压小，而是证明百度想把“训一个大母体，再抽不同工作点子网”的模式工业化。这个方向如果成立，未来模型代际更新不一定都要从零起大炉重炼。

2. Agent 时代的瓶颈正在从模型架构转向系统架构

全文最重的技术资产之一，其实是 RL Controller、异步解耦、CPU pooling、R3、FP8 一致性这些基础设施。因为长链路 agent 训练的核心难题，已经不只是 loss 设计，而是整条 rollout 工厂怎么稳定跑。

3. 多能力统一模型的难点不是“能不能训进去”，而是“怎么不互相伤害”

百度给出的答案不是把所有数据混一起硬训，而是：专家并行训练 + OPD 融合 + General RL 兜底。这个思路对所有想做“一个模型打天下”的团队都很有参考价值。

实践指南

🟢 立即可用

重新理解“训练效率”指标
- 做什么：看模型时，不只盯参数量和榜单，也盯 total params、active params、预训练成本比例、是否支持弹性子网抽取。
- 为什么：这决定企业长期供给能力和版本迭代速度。
- 注意：厂商给出的“6% 成本”通常是同规模口径，不等于绝对训练开销只有别人 6%。
重新评估 Agent 模型基础设施需求
- 做什么：如果你在做 agent training，要把 CPU、verifier、sandbox、异步调度也算进系统设计。
- 为什么：真正拖慢训练闭环的，常常不在 GPU 主干本身。
- 注意：只优化模型前向速度，不一定能提升长链路 RL 吞吐。

🟡 需要适配

OPD/多教师蒸馏范式
- 适配条件：你的组织同时追求 code/reasoning/creative/agent 多能力统一。
- 调整方向：把高熵创作类能力与低熵专家任务拆开处理，不要一锅炖。
弹性预训练范式
- 适配条件：你有能力维护统一底座，并反复产出不同成本/能力档位子模型。
- 调整方向：重点不在最终模型多小，而在训练期是否建立足够好的子模型矩阵。

🔴 注意事项

Search Arena 和内部创作评测都不是完整产品现实
- 搜索榜强，不自动等于企业知识系统就会赢。
“同规模模型约 6% 成本”需要更多外部拆解
- 这背后可能包含口径选择、训练继承收益和规模比较基准差异。
RL 系统能力强，不等于线上 Agent 稳定性自然成立
- 训练闭环优化与真实客户任务鲁棒性之间仍有距离。

横向对比

话题	本文观点	DeepSeek-V4-Pro	Gemini 3.1 Pro / 海外闭源前沿
训练哲学	大底座 + 弹性抽子网 + 多阶段融合	更强调模型/Agent能力发布节奏	更强调顶层能力领先，但很少公开系统细节
Agent 训练	强调全异步 RL 基建与系统吞吐	公开口径偏产品能力与协议支持	多数只露 benchmark，不细讲基础设施
成本叙事	预训练成本约同规模 6%	更强调能力与性价比，但未给出同类口径	海外闭源通常不公开同维度成本
创作能力	明确纳入旗舰模型卖点	公开叙事偏通用/工具/多模态	海外头部模型已把创作能力视作标配

批判性分析

局限性

很多关键指标仍是官方自报口径
- 包括成本、创意写作能力对比、若干接近/超过闭源模型的描述。
缺失更细 benchmark 表
- 原文没有把 τ³-bench、SpreadsheetBench、GPQA、MMLU-Pro、AIME26 的完整对照表全摊开。
6% 成本背后的比较口径仍不够透明
- 是对同 active params、同总参数、还是同最终效果档位比较，外部仍需拆解。

适用边界

如果你关心的是国产闭源模型的长期供给能力，这篇非常重要。
如果你只关心 API 价格和企业案例，这篇还不够，需要等 Create 2026 补更多商业细节。
如果你要复现其核心方法，公开细节仍不足以工程复刻，只能吸收方向和架构理念。

潜在风险

过度依赖单一统一底座，可能让后续架构切换成本升高。
多教师蒸馏 + General RL 管线虽然优雅，但工程链极复杂，维护成本高。
Search/Agent 榜单漂亮，不代表企业侧 SLA、成本和长尾稳定性已经同样成熟。

独立观察

ERNIE 5.1 最值得重视的不是某个榜单，而是百度开始公开把“模型训练工厂”当成核心护城河。
它像是中国闭源基础模型的一次方向声明：未来要赢，不只靠更大参数，而要靠更会组织参数、算力、RL 流水线和多能力融合。
如果百度后续把这套范式进一步开放到 API 价格、Agent workflow、企业案例层面，文心 5.1 可能会成为国内企业知识系统与搜索增强 Agent 的重要分水岭。

速查卡
文章背景
完整内容还原
开场结论：5.1 是一代“成本-能力比”模型
能力层：百度先端出了能打的 benchmark 结果
技术特征 1：多维弹性预训练，不是裁剪，而是先训一棵大树再抽最优子网
技术特征 2：全异步、解耦式强化学习训练基建，瞄准的是长链路 Agent 训练
技术特征 3：FP8 训推一致性优化，重点不是省显存，而是减少 RL 里最致命的偏差
技术特征 4：异构弹性资源调度，把闲置 CPU 也拉进 Agent 训练流水线
技术特征 5：多阶段 RL 管线，以 OPD/MOPD 解决“多能力彼此打架”的老问题
创意能力段落：官方在证明自己不是只有工程，不是只会写 benchmark
核心技术洞察
1. 真正有价值的不是“模型更小”，而是“训练范式可弹性复用”
2. Agent 时代的瓶颈正在从模型架构转向系统架构
3. 多能力统一模型的难点不是“能不能训进去”，而是“怎么不互相伤害”
实践指南
🟢 立即可用
🟡 需要适配
🔴 注意事项
横向对比
批判性分析
局限性
适用边界
潜在风险
独立观察