百度在 Create 2026 重写智能体时代的度量体系
百度在 Create 2026 重写智能体时代的度量体系
主要信源:https://www.qbitai.com/2026/05/416762.html 交叉说明:当前未检索到可稳定抓取全文的百度官方长稿,以下分析以大会现场报道与其中明确引述的数据为基础;凡未见官方全文支撑处,均不外推细节。 事件日期:2026-05-13
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 百度不是单独发几个 Agent 产品,而是把“DAA(日活智能体数)+ Agent 基础设施 + 任务交付闭环”打包成新叙事,试图把行业 KPI 从 Token 成本改成任务产出。 |
| 大白话版 | 李彦宏在说:以后别只问模型吐了多少 token、用户聊了多久,要问到底有多少智能体真的替人把活干完。 |
| 核心数字 | DAA 未来可能超过 100 亿;秒哒 App 90% 代码由智能体生成;秒哒累计服务用户超 1000 万、应用价值达 50 亿元;办公场景任务成功率可达 95%,最高降 23% token 消耗;招行已上线超 800 个 AI 智能体应用。 |
| 影响评级 | A |
| 利益相关方 | 百度智能云、企业 Agent 平台、国产算力厂商、希望做“任务型 AI”而非“聊天型 AI”的应用团队 |
事件全貌
发生了什么?
Create 2026 上,百度把几条原本分散的产品线第一次收束成同一套逻辑:
- 李彦宏首次提出 DAA(日活智能体数)
- DuMate 移动端 App 正式推出,定位为通用 Agent 入口
- 秒哒推出 App 与企业版,把代码智能体推向更广软件生产场景
- 慧播星升级为“百度一镜”,把数字人从单场景工具升级为多智能体内容平台
- 伐谋升级到 2.0,把工业与业务决策智能体继续产品化
- 百度智能云把 MaaS 升级为 Token Factory,并抛出 Harness Engineering 这一套 Agent Infra 叙事
这说明百度想讲的不是“我们也有几个 Agent 产品”,而是“从芯片、云、底模、Agent 运行时到行业落地,我们已经有一条完整交付链”。
时间线
- 2026-05-08:百度发布 ERNIE 5.1,强调低成本旗舰与 Agent/RL 基础设施
- 2026-05-13:Create 2026 大会,首次提出 DAA,并集中发布 DuMate、秒哒、一镜、伐谋 2.0 与 Agent Infra 更新
- 当前后续:市场要验证 DAA 是否能成为比 DAU / token volume 更有行业共识的指标
关键人物说了什么?
量子位会场实录中,李彦宏的核心观点有三句:
- Token 不代表终局,只代表成本,不代表收益
- DAA 关注的是有多少 Agent 在给人类干活、交付结果
- 未来全球 DAA 可能超过 100 亿
这三句合在一起,实际上是在改写 AI 产品的“财务语言”。过去产业讨论常围绕:
- token 成本
- API 调用量
- DAU
- 模型分数
百度现在试图把焦点转成:
- 每天有多少 Agent 真在执行任务
- 这些 Agent 是否能稳定交付结果
- 背后的推理与调度系统能否撑住规模化业务
技术解析
技术方案不在单模型,而在“任务闭环栈”
这次发布最值得拆的不是某个模型参数,而是百度把智能体栈拆成了五层:
任务结果指标(DAA)
↓
通用/垂直 Agent(DuMate / 秒哒 / 一镜 / 伐谋)
↓
Agent 运行时(Harness Engineering)
↓
模型服务与推理工厂(Token Factory)
↓
芯片 + AI 云 + 集群网络(昆仑芯 / AIDC)
换句话说,百度不再满足于“我有模型能力”,而是在说“我有把 Agent 运行、调度、记忆、交付、扩展都跑起来的整套系统”。
DAA 为什么重要
DAA 的关键不在于它是不是一个完美指标,而在于它试图解决一个行业普遍问题:
- DAU 测的是人来没来
- token 测的是系统花了多少钱
- benchmark 测的是局部能力
- 但没有哪个指标直接测“AI 是否真的把工作做完”
DAA 试图补的恰恰是最后这一层。它比 token 更接近业务产出,也比单纯聊天 DAU 更接近 Agent 时代的真实价值。
但 DAA 真正落地有三个前提:
- 必须先定义什么叫一个“有效智能体”
- 必须能判定什么叫一次“有效交付”
- 必须能防止刷量式智能体、空转智能体把指标做假
所以 DAA 现在更像一个方向性定义,而不是已经标准化的审计口径。
DuMate:统一入口而不是单点功能
报道里对 DuMate 的描述非常关键:它把百度 AI 搜索、秒哒、伐谋、百科等能力集成为内置技能,并强化长程任务执行与主动决策。
这意味着 DuMate 的定位不是“又一个聊天助手”,而是 Agent 路由层:
- 通用搜索和信息收集交给搜索/百科
- 软件或工作流生成交给秒哒
- 决策优化交给伐谋
- 最终由一个上层 Agent 统一接受任务并分发能力
这个方向的本质,是把百度内部原本分散的能力重新编排成“多 Agent 协同系统”。它更像操作层,不像单应用。
秒哒:软件生产的“日抛化”叙事
秒哒最硬的数据有三条:
- 秒哒 App 本身 90% 代码由秒哒智能体自动生成
- 截止目前,秒哒生成的应用累计服务用户超 1000 万
- 应用价值达 50 亿元
技术上,这里面最值得注意的不是“能写代码”本身,而是百度对软件供给模式的重新定义:
李彦宏把它解释为“一次性软件”或“日抛型软件”变得合理。也就是说,软件不再一定是重资产、长周期产品,而可能变成随任务即时生成、随需求变化持续重构的交付物。
如果这条逻辑成立,那么代码生成的竞争焦点会从“生成函数正不正确”变成:
- 能否快速落成一个可运行应用
- 能否持续修改
- 能否接入企业权限、数据与流程
- 能否把软件从产品变成服务化结果
一镜:数字人从直播插件升级为 Agent 前端
一镜的定位变化非常重要。原先慧播星更偏直播与带货工具;升级后,一镜被定义为“全场景多智能体数字人平台”。
这背后的隐含逻辑是:
- 聊天框未必是 Agent 的最终交互界面
- 数字人可能成为“可视化的 Agent 容器”
- 多轮服务、内容生产、实时互动、长视频生成,都可以统一挂在数字人之下
李彦宏那句“数字人就是‘看得见’的智能体”,本质上是在说:前台 UI 也会 Agent 化。
伐谋 2.0:把“企业记忆”做成可复用资产
伐谋 2.0 的关键词是:
- 生产排程
- 物流规划
- 工艺优化
- 企业级记忆系统
报道中特别强调:业务专家无需懂代码,可通过对话像“带徒弟”一样调整系统;企业级记忆则将业务逻辑沉淀为可复用 AI 资产,越用越懂企业。
这意味着百度把企业 Agent 的壁垒放在两个地方:
- 持续积累企业专属知识与流程偏好
- 让业务专家自己成为训练闭环的一部分
这比单次问答重要得多。因为真正决定企业 Agent 黏性的,不是第一次回答,而是第 N 次后它是否开始理解组织的隐性规则。
Token Factory + Harness Engineering:这才是整场最硬的系统层发布
百度智能云对 Agent Infra 的描述非常像“企业版 runtime”而不是普通云服务。
其中两项最关键:
-
Token Factory
- 以 Agent-first 理念减少重复计算
- 推理速度较市场平均提升约 25%
- 适配文心、DeepSeek、GLM、MiniMax 等国产主流模型
-
Harness Engineering
- 集成长上下文管理、持久记忆、工具调用、子智能体调度
- 深度适配 Office、浏览器等常用企业工具
- 典型办公场景任务成功率可达 95%
- 相比同类产品最高可降低 23% token 消耗
这说明百度理解的 Agent 基础设施,不只是“给模型调用工具”,而是要把:
- 记忆
- 工具编排
- 子 Agent 协同
- 上下文控制
- 成本优化
- 企业软件适配
全部收进一个统一运行时里。
产业影响链
DAA 指标提出
├→ AI 商业指标从 token/DAU 转向任务交付
│ ├→ 企业更重视 Agent 成功率
│ └→ 平台厂商更重视运行时与记忆系统
├→ DuMate/秒哒/伐谋/一镜被并成统一叙事
│ ├→ 百度从模型厂商转向 Agent 平台厂商
│ └→ 搜索、云、代码、数字人开始共享同一基础设施
└→ Token Factory + Harness Engineering 上台
├→ 国产 Agent Infra 市场进入系统化竞争
└→ 芯片、云、模型、Agent 调度第一次真正绑定为一套交付链
谁受益?
-
百度智能云
- 因为它终于能把算力、模型、工具链、Agent 运行时统一出售,而不只是卖 API
-
已有复杂工作流的企业
- 因为它们更需要“会执行”的 Agent,而不是单次聊天能力
-
国产算力生态
- 因为 Token Factory、昆仑芯、集群网络与 Agent 工作负载被直接绑定,能形成软硬一体护城河
谁受损?
-
只卖 token 的平台叙事
- 因为 DAA 把竞争指标从调用量拉向结果质量
-
只做单点 Agent demo 的厂商
- 因为百度展示的是系统工程,而不是单功能演示
-
缺少企业记忆与工具调度能力的模型厂
- 因为未来企业买的不是底模本身,而是可持续交付的 Agent 栈
竞争格局变化
变化前
中国大模型竞争大多仍围绕:
- 模型榜单
- token 价格
- 推理速度
- 企业定制
变化后
百度试图把战场往三件事上推:
- 任务交付成功率
- Agent 基础设施成熟度
- 软硬协同的规模化能力
这会让竞争从“谁的模型更强”升级成“谁的 Agent 工厂更完整”。
历史脉络
从 2025 年开始,行业就一直在从 chat assistant 转向 agentic workflow。问题是,大部分厂商只解决了“能不能调用工具”,没解决:
- 长任务能不能持续
- 企业知识能不能沉淀
- 子 Agent 能不能协同
- 成本能不能控住
- 结果能不能被量化
百度这次把 DAA 和 Agent Infra 放在同一场大会里,就是在试图回答这几个系统级问题。
批判性分析
被忽略的风险
-
DAA 很容易沦为新一轮“漂亮但可刷”的指标
- 如果没有严格定义“活跃”和“交付”,它会像某些 DAU 指标一样被运营化
-
95% 任务成功率的适用边界未说明
- 报道只说“典型办公场景”,但没有公开任务集、难度、失败定义与对照基线
-
秒哒和 DuMate 的高光数据缺少外部审计
- 例如“应用价值 50 亿元”“SOTA benchmark”都还需要更多第三方拆解
乐观预期的合理性
乐观派会认为百度终于把 Agent 从概念拉回交付,这是合理的。尤其在中国企业市场,真正能买单的从来不是聊天次数,而是任务闭环能力。
悲观预期的合理性
悲观派会说,这仍然可能是一次大会级叙事拼装:产品各自成立,不等于它们已经在同一运行时里无缝协同,更不等于 DAA 能被行业共同接受。这个质疑也完全合理。
独立观察
我对这次发布有三个判断:
-
百度真正想卖的不是 DAA,而是“Agent 时代的会计体系”
- 它想决定行业以后拿什么衡量价值
-
真正有护城河的不是某个单 Agent,而是 Harness Engineering 这层
- 谁掌握记忆、工具编排、子 Agent 调度和企业软件适配,谁才更接近 Agent OS
-
百度和 OpenAI/Anthropic/Google 的差异越来越明显
- 海外巨头先把强模型和通用 Agent 做出来,再逐步产品化;百度则更像反过来,从企业场景、云基础设施和国产算力出发,把 Agent 重新组织成可交付系统
对动动的结论很直接:这条最值得盯的不是“百度又发了几个产品”,而是“百度开始公开争夺 Agent 时代的指标定义权和运行时定义权”。如果它真把 DAA + Agent Infra 叙事跑通,国内 AI 平台竞争将从模型赛道转向任务交付赛道。