Esc
输入关键词开始搜索
News

百度在 Create 2026 重写智能体时代的度量体系

百度在 Create 2026 重写智能体时代的度量体系

主要信源:https://www.qbitai.com/2026/05/416762.html 交叉说明:当前未检索到可稳定抓取全文的百度官方长稿,以下分析以大会现场报道与其中明确引述的数据为基础;凡未见官方全文支撑处,均不外推细节。 事件日期:2026-05-13

速查卡

项目内容
一句话总结百度不是单独发几个 Agent 产品,而是把“DAA(日活智能体数)+ Agent 基础设施 + 任务交付闭环”打包成新叙事,试图把行业 KPI 从 Token 成本改成任务产出。
大白话版李彦宏在说:以后别只问模型吐了多少 token、用户聊了多久,要问到底有多少智能体真的替人把活干完。
核心数字DAA 未来可能超过 100 亿;秒哒 App 90% 代码由智能体生成;秒哒累计服务用户超 1000 万、应用价值达 50 亿元;办公场景任务成功率可达 95%,最高降 23% token 消耗;招行已上线超 800 个 AI 智能体应用。
影响评级A
利益相关方百度智能云、企业 Agent 平台、国产算力厂商、希望做“任务型 AI”而非“聊天型 AI”的应用团队

事件全貌

发生了什么?

Create 2026 上,百度把几条原本分散的产品线第一次收束成同一套逻辑:

  1. 李彦宏首次提出 DAA(日活智能体数)
  2. DuMate 移动端 App 正式推出,定位为通用 Agent 入口
  3. 秒哒推出 App 与企业版,把代码智能体推向更广软件生产场景
  4. 慧播星升级为“百度一镜”,把数字人从单场景工具升级为多智能体内容平台
  5. 伐谋升级到 2.0,把工业与业务决策智能体继续产品化
  6. 百度智能云把 MaaS 升级为 Token Factory,并抛出 Harness Engineering 这一套 Agent Infra 叙事

这说明百度想讲的不是“我们也有几个 Agent 产品”,而是“从芯片、云、底模、Agent 运行时到行业落地,我们已经有一条完整交付链”。

时间线

  • 2026-05-08:百度发布 ERNIE 5.1,强调低成本旗舰与 Agent/RL 基础设施
  • 2026-05-13:Create 2026 大会,首次提出 DAA,并集中发布 DuMate、秒哒、一镜、伐谋 2.0 与 Agent Infra 更新
  • 当前后续:市场要验证 DAA 是否能成为比 DAU / token volume 更有行业共识的指标

关键人物说了什么?

量子位会场实录中,李彦宏的核心观点有三句:

  1. Token 不代表终局,只代表成本,不代表收益
  2. DAA 关注的是有多少 Agent 在给人类干活、交付结果
  3. 未来全球 DAA 可能超过 100 亿

这三句合在一起,实际上是在改写 AI 产品的“财务语言”。过去产业讨论常围绕:

  • token 成本
  • API 调用量
  • DAU
  • 模型分数

百度现在试图把焦点转成:

  • 每天有多少 Agent 真在执行任务
  • 这些 Agent 是否能稳定交付结果
  • 背后的推理与调度系统能否撑住规模化业务

技术解析

技术方案不在单模型,而在“任务闭环栈”

这次发布最值得拆的不是某个模型参数,而是百度把智能体栈拆成了五层:

任务结果指标(DAA)

通用/垂直 Agent(DuMate / 秒哒 / 一镜 / 伐谋)

Agent 运行时(Harness Engineering)

模型服务与推理工厂(Token Factory)

芯片 + AI 云 + 集群网络(昆仑芯 / AIDC)

换句话说,百度不再满足于“我有模型能力”,而是在说“我有把 Agent 运行、调度、记忆、交付、扩展都跑起来的整套系统”。

DAA 为什么重要

DAA 的关键不在于它是不是一个完美指标,而在于它试图解决一个行业普遍问题:

  • DAU 测的是人来没来
  • token 测的是系统花了多少钱
  • benchmark 测的是局部能力
  • 但没有哪个指标直接测“AI 是否真的把工作做完”

DAA 试图补的恰恰是最后这一层。它比 token 更接近业务产出,也比单纯聊天 DAU 更接近 Agent 时代的真实价值。

但 DAA 真正落地有三个前提:

  1. 必须先定义什么叫一个“有效智能体”
  2. 必须能判定什么叫一次“有效交付”
  3. 必须能防止刷量式智能体、空转智能体把指标做假

所以 DAA 现在更像一个方向性定义,而不是已经标准化的审计口径。

DuMate:统一入口而不是单点功能

报道里对 DuMate 的描述非常关键:它把百度 AI 搜索、秒哒、伐谋、百科等能力集成为内置技能,并强化长程任务执行与主动决策。

这意味着 DuMate 的定位不是“又一个聊天助手”,而是 Agent 路由层:

  • 通用搜索和信息收集交给搜索/百科
  • 软件或工作流生成交给秒哒
  • 决策优化交给伐谋
  • 最终由一个上层 Agent 统一接受任务并分发能力

这个方向的本质,是把百度内部原本分散的能力重新编排成“多 Agent 协同系统”。它更像操作层,不像单应用。

秒哒:软件生产的“日抛化”叙事

秒哒最硬的数据有三条:

  • 秒哒 App 本身 90% 代码由秒哒智能体自动生成
  • 截止目前,秒哒生成的应用累计服务用户超 1000 万
  • 应用价值达 50 亿元

技术上,这里面最值得注意的不是“能写代码”本身,而是百度对软件供给模式的重新定义:

李彦宏把它解释为“一次性软件”或“日抛型软件”变得合理。也就是说,软件不再一定是重资产、长周期产品,而可能变成随任务即时生成、随需求变化持续重构的交付物。

如果这条逻辑成立,那么代码生成的竞争焦点会从“生成函数正不正确”变成:

  • 能否快速落成一个可运行应用
  • 能否持续修改
  • 能否接入企业权限、数据与流程
  • 能否把软件从产品变成服务化结果

一镜:数字人从直播插件升级为 Agent 前端

一镜的定位变化非常重要。原先慧播星更偏直播与带货工具;升级后,一镜被定义为“全场景多智能体数字人平台”。

这背后的隐含逻辑是:

  1. 聊天框未必是 Agent 的最终交互界面
  2. 数字人可能成为“可视化的 Agent 容器”
  3. 多轮服务、内容生产、实时互动、长视频生成,都可以统一挂在数字人之下

李彦宏那句“数字人就是‘看得见’的智能体”,本质上是在说:前台 UI 也会 Agent 化。

伐谋 2.0:把“企业记忆”做成可复用资产

伐谋 2.0 的关键词是:

  • 生产排程
  • 物流规划
  • 工艺优化
  • 企业级记忆系统

报道中特别强调:业务专家无需懂代码,可通过对话像“带徒弟”一样调整系统;企业级记忆则将业务逻辑沉淀为可复用 AI 资产,越用越懂企业。

这意味着百度把企业 Agent 的壁垒放在两个地方:

  1. 持续积累企业专属知识与流程偏好
  2. 让业务专家自己成为训练闭环的一部分

这比单次问答重要得多。因为真正决定企业 Agent 黏性的,不是第一次回答,而是第 N 次后它是否开始理解组织的隐性规则。

Token Factory + Harness Engineering:这才是整场最硬的系统层发布

百度智能云对 Agent Infra 的描述非常像“企业版 runtime”而不是普通云服务。

其中两项最关键:

  1. Token Factory

    • 以 Agent-first 理念减少重复计算
    • 推理速度较市场平均提升约 25%
    • 适配文心、DeepSeek、GLM、MiniMax 等国产主流模型
  2. Harness Engineering

    • 集成长上下文管理、持久记忆、工具调用、子智能体调度
    • 深度适配 Office、浏览器等常用企业工具
    • 典型办公场景任务成功率可达 95%
    • 相比同类产品最高可降低 23% token 消耗

这说明百度理解的 Agent 基础设施,不只是“给模型调用工具”,而是要把:

  • 记忆
  • 工具编排
  • 子 Agent 协同
  • 上下文控制
  • 成本优化
  • 企业软件适配

全部收进一个统一运行时里。

产业影响链

DAA 指标提出
  ├→ AI 商业指标从 token/DAU 转向任务交付
  │    ├→ 企业更重视 Agent 成功率
  │    └→ 平台厂商更重视运行时与记忆系统
  ├→ DuMate/秒哒/伐谋/一镜被并成统一叙事
  │    ├→ 百度从模型厂商转向 Agent 平台厂商
  │    └→ 搜索、云、代码、数字人开始共享同一基础设施
  └→ Token Factory + Harness Engineering 上台
       ├→ 国产 Agent Infra 市场进入系统化竞争
       └→ 芯片、云、模型、Agent 调度第一次真正绑定为一套交付链

谁受益?

  1. 百度智能云

    • 因为它终于能把算力、模型、工具链、Agent 运行时统一出售,而不只是卖 API
  2. 已有复杂工作流的企业

    • 因为它们更需要“会执行”的 Agent,而不是单次聊天能力
  3. 国产算力生态

    • 因为 Token Factory、昆仑芯、集群网络与 Agent 工作负载被直接绑定,能形成软硬一体护城河

谁受损?

  1. 只卖 token 的平台叙事

    • 因为 DAA 把竞争指标从调用量拉向结果质量
  2. 只做单点 Agent demo 的厂商

    • 因为百度展示的是系统工程,而不是单功能演示
  3. 缺少企业记忆与工具调度能力的模型厂

    • 因为未来企业买的不是底模本身,而是可持续交付的 Agent 栈

竞争格局变化

变化前

中国大模型竞争大多仍围绕:

  • 模型榜单
  • token 价格
  • 推理速度
  • 企业定制

变化后

百度试图把战场往三件事上推:

  1. 任务交付成功率
  2. Agent 基础设施成熟度
  3. 软硬协同的规模化能力

这会让竞争从“谁的模型更强”升级成“谁的 Agent 工厂更完整”。

历史脉络

从 2025 年开始,行业就一直在从 chat assistant 转向 agentic workflow。问题是,大部分厂商只解决了“能不能调用工具”,没解决:

  • 长任务能不能持续
  • 企业知识能不能沉淀
  • 子 Agent 能不能协同
  • 成本能不能控住
  • 结果能不能被量化

百度这次把 DAA 和 Agent Infra 放在同一场大会里,就是在试图回答这几个系统级问题。

批判性分析

被忽略的风险

  1. DAA 很容易沦为新一轮“漂亮但可刷”的指标

    • 如果没有严格定义“活跃”和“交付”,它会像某些 DAU 指标一样被运营化
  2. 95% 任务成功率的适用边界未说明

    • 报道只说“典型办公场景”,但没有公开任务集、难度、失败定义与对照基线
  3. 秒哒和 DuMate 的高光数据缺少外部审计

    • 例如“应用价值 50 亿元”“SOTA benchmark”都还需要更多第三方拆解

乐观预期的合理性

乐观派会认为百度终于把 Agent 从概念拉回交付,这是合理的。尤其在中国企业市场,真正能买单的从来不是聊天次数,而是任务闭环能力。

悲观预期的合理性

悲观派会说,这仍然可能是一次大会级叙事拼装:产品各自成立,不等于它们已经在同一运行时里无缝协同,更不等于 DAA 能被行业共同接受。这个质疑也完全合理。

独立观察

我对这次发布有三个判断:

  1. 百度真正想卖的不是 DAA,而是“Agent 时代的会计体系”

    • 它想决定行业以后拿什么衡量价值
  2. 真正有护城河的不是某个单 Agent,而是 Harness Engineering 这层

    • 谁掌握记忆、工具编排、子 Agent 调度和企业软件适配,谁才更接近 Agent OS
  3. 百度和 OpenAI/Anthropic/Google 的差异越来越明显

    • 海外巨头先把强模型和通用 Agent 做出来,再逐步产品化;百度则更像反过来,从企业场景、云基础设施和国产算力出发,把 Agent 重新组织成可交付系统

对动动的结论很直接:这条最值得盯的不是“百度又发了几个产品”,而是“百度开始公开争夺 Agent 时代的指标定义权和运行时定义权”。如果它真把 DAA + Agent Infra 叙事跑通,国内 AI 平台竞争将从模型赛道转向任务交付赛道。