News
高德全量开源通用机器人基座模型 ABot-M0
高德全量开源通用机器人基座模型 ABot-M0
原文链接:https://www.aibase.com/zh/news/26764 来源:AIBase 发布日期:2026-04-02
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 全球首个基于统一架构的通用机器人操作基座模型,Libero-Plus 成功率 80.5%,比 Pi0 提升近 30% |
| 大白话版 | 以前每种机器人都需要单独训练大脑,现在一个通用大脑就能适配多种不同形态的机器人 |
| 核心数字 | Libero-Plus 80.5% / 比 Pi0 +30% / 600 万+操作轨迹 / 三大维度全量开源 |
| 评级 | A — 具身智能领域里程碑式的全量开源 |
| 代码 | 数据+算法+模型三层完全开源 |
| 关键词 | 具身智能, 通用机器人, 操作基座模型, AML, UniACT, 双流感知 |
核心 Insight
具身智能领域最大的痛点是”异构硬件壁垒”——每种机器人形态(双臂协作机械臂、单臂服务机器人、人形机器人等)都需要独立训练的操作策略,导致开发成本极高、经验难以复用。
ABot-M0 的核心洞察是:如果将动作空间统一映射到一个共享的”动作流形”(Action Manifold)中,不同形态机器人的操作可以在同一个表示空间中学习和迁移。这类似于 NLP 中的”统一 tokenization”——将不同模态的信息映射到同一个 token 空间中。
为什么这个想法 work?
- 动作流形学习(AML):不同机器人的动作虽然在物理空间中形态各异,但在抽象的”操作意图”空间中共享大量结构。抓取、推动、旋转等基本操作在流形空间中可以被统一表示
- 双流感知架构:同时处理视觉(RGB/深度)和本体感受(关节角度/力矩),两个信息流在特征层面融合,赋予模型空间理解能力
- 600 万+真实轨迹的规模效应:UniACT 数据集是目前最大的通用机器人操作数据集,跨越多种机器人形态和任务类型
方法详解
整体架构
多模态输入(视觉+本体感受)
↓
双流感知编码器(视觉流 + 本体感受流)
↓
特征融合层
↓
动作流形学习(AML)
↓
统一动作空间表示
↓
解码为特定机器人的物理动作
关键技术组件
组件 1: UniACT 数据集
做什么: 提供跨形态、跨任务的大规模操作训练数据
规模: 600 万+条真实操作轨迹
覆盖: 多种机器人形态(单臂/双臂/移动操作)× 多种任务类型(抓取/放置/操作/导航)
配套工具: 完整的数据处理管线,从异构格式到标准化训练数据
组件 2: 动作流形学习(AML)
做什么: 将不同形态机器人的动作映射到统一的低维流形空间
关键创新: 在流形空间中学习跨形态的操作共性,而非在物理空间中独立训练
组件 3: 双流感知架构
做什么: 同时处理视觉和本体感受信息
视觉流: RGB/深度图像 → 空间特征提取 本体感受流: 关节角度/力矩/末端执行器位姿 → 动作状态编码
实验结果
主实验
| 方法 | Libero-Plus | Libero | RoboCasa |
|---|---|---|---|
| Pi0 | ~50.5% | — | — |
| RT-2 | — | — | — |
| ABot-M0 | 80.5% | SOTA | SOTA |
| 相对 Pi0 提升 | +30% | — | — |
关键发现
- 跨形态泛化:在一种机器人形态上训练的经验可以有效迁移到另一种形态
- 数据规模效应:600 万+轨迹的大规模数据是性能优势的关键来源
- AML 的核心贡献:动作流形学习是 30% 提升的主要贡献者
复现评估
| 维度 | 评分 | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐⭐⭐⭐ | UniACT 数据集完全开源,600 万+轨迹 |
| 代码可得性 | ⭐⭐⭐⭐⭐ | 架构+训练框架+工具链完全开源 |
| 算力需求 | ⭐⭐⭐ | 大规模训练需要相当算力 |
| 工程复杂度 | ⭐⭐⭐ | 需要机器人硬件进行实际部署验证 |
| 预期收益 | ⭐⭐⭐⭐⭐ | 对具身智能研究和应用有重大推动 |
批判性分析
局限性
- Sim-to-Real Gap:基准测试主要在仿真环境中,真实物理环境的鲁棒性仍需验证
- 细粒度操作:对于精密装配、柔性物体操作等高精度任务的表现未知
- 实时性:推理延迟是否满足实时控制需求未充分说明
改进方向
- 在线自适应:结合 MetaClaw 式的闲时学习,让模型在部署中持续改进
- 多模态感知扩展:增加触觉传感器数据流
- 任务规划层:在操作基座上叠加高层任务规划能力
对领域的影响
ABot-M0 的全量开源(数据+算法+模型)在具身智能领域几乎前所未有。此前开源通常只涉及模型权重或算法代码,数据层面的开放极为稀缺。这将显著加速具身智能从学术走向产业,特别是对缺少数据积累的中小团队。
📌 2026-04-20 更新
从单个操作基座到全栈具身飞轮:高德把 ABot 升级成完整体系
- 高德 4 月 19 日公开的不再只是 ABot-M0 单模型,而是完整的 ABot 全栈具身技术体系:数据层 ABot-World、模型层 ABot-N / ABot-M、应用层执行中枢 ABot-Claw。
- 最关键的新信息是系统闭环被补齐:高德把“真实地图与时空数据 → 仿真与世界模型 → 导航/操作基座 → 机器人执行 → 真实反馈”串成了飞轮,这比 4 月 2 日仅看 ABot-M0 的意义大得多。
- ABot-World 被明确为 14B DiT 世界模型:它以观测和动作为输入,在潜空间生成未来状态序列,并把 3DGS 重建、拉格朗日动力学与 Diffusion-DPO 物理偏好对齐框架揉进同一个训练闭环,目标是解决具身世界模型常见的“视觉像真但物理不真”问题。
- ABot-N 和 ABot-M 的分工更清晰:ABot-N 负责跨本体导航,声称在 VLN-CE、HM3D-OVON、EVT-Bench 等 7 个基准上刷新 SOTA;ABot-M 继续承担通用操作基座角色,并把动作流形学习、语义流/动作流双流架构进一步包装成通用异构机器人“共享大脑”。
- ABot-Claw 才是这次最像系统论文的部分:其核心理念是“Map as Memory”,把高德地图与用户私有地图作为全局认知锚点,让不同机器人共享持久化环境记忆,并通过集中式 Harness 架构完成调度、记忆、分层控制与跨机协作。
- 开放环境验证补上了过去最缺的一块:四足机器人“途途”在亦庄半马公开演示导盲、复杂避障和人群穿行,虽然这仍不是工业通用落地,但比实验室内的封闭 benchmark 更能证明系统级闭环是否成立。
- 评价修正:我们此前把 ABot-M0 视为“高德开源一个强操作基座模型”;今天必须修正为“高德正在把地图公司的时空资产、世界模型、导航、操作与执行中枢整合成具身智能全栈平台”。真正的壁垒不再只是单模型分数,而是飞轮转速与真实场景反馈回路。
新增信源: