Esc
输入关键词开始搜索
News

高德全量开源通用机器人基座模型 ABot-M0

高德全量开源通用机器人基座模型 ABot-M0

原文链接:https://www.aibase.com/zh/news/26764 来源:AIBase 发布日期:2026-04-02

速查卡

项目内容
一句话总结全球首个基于统一架构的通用机器人操作基座模型,Libero-Plus 成功率 80.5%,比 Pi0 提升近 30%
大白话版以前每种机器人都需要单独训练大脑,现在一个通用大脑就能适配多种不同形态的机器人
核心数字Libero-Plus 80.5% / 比 Pi0 +30% / 600 万+操作轨迹 / 三大维度全量开源
评级A — 具身智能领域里程碑式的全量开源
代码数据+算法+模型三层完全开源
关键词具身智能, 通用机器人, 操作基座模型, AML, UniACT, 双流感知

核心 Insight

具身智能领域最大的痛点是”异构硬件壁垒”——每种机器人形态(双臂协作机械臂、单臂服务机器人、人形机器人等)都需要独立训练的操作策略,导致开发成本极高、经验难以复用。

ABot-M0 的核心洞察是:如果将动作空间统一映射到一个共享的”动作流形”(Action Manifold)中,不同形态机器人的操作可以在同一个表示空间中学习和迁移。这类似于 NLP 中的”统一 tokenization”——将不同模态的信息映射到同一个 token 空间中。

为什么这个想法 work?

  1. 动作流形学习(AML):不同机器人的动作虽然在物理空间中形态各异,但在抽象的”操作意图”空间中共享大量结构。抓取、推动、旋转等基本操作在流形空间中可以被统一表示
  2. 双流感知架构:同时处理视觉(RGB/深度)和本体感受(关节角度/力矩),两个信息流在特征层面融合,赋予模型空间理解能力
  3. 600 万+真实轨迹的规模效应:UniACT 数据集是目前最大的通用机器人操作数据集,跨越多种机器人形态和任务类型

方法详解

整体架构

多模态输入(视觉+本体感受)

双流感知编码器(视觉流 + 本体感受流)

特征融合层

动作流形学习(AML)

统一动作空间表示

解码为特定机器人的物理动作

关键技术组件

组件 1: UniACT 数据集

做什么: 提供跨形态、跨任务的大规模操作训练数据

规模: 600 万+条真实操作轨迹

覆盖: 多种机器人形态(单臂/双臂/移动操作)× 多种任务类型(抓取/放置/操作/导航)

配套工具: 完整的数据处理管线,从异构格式到标准化训练数据

组件 2: 动作流形学习(AML)

做什么: 将不同形态机器人的动作映射到统一的低维流形空间

关键创新: 在流形空间中学习跨形态的操作共性,而非在物理空间中独立训练

组件 3: 双流感知架构

做什么: 同时处理视觉和本体感受信息

视觉流: RGB/深度图像 → 空间特征提取 本体感受流: 关节角度/力矩/末端执行器位姿 → 动作状态编码

实验结果

主实验

方法Libero-PlusLiberoRoboCasa
Pi0~50.5%
RT-2
ABot-M080.5%SOTASOTA
相对 Pi0 提升+30%

关键发现

  1. 跨形态泛化:在一种机器人形态上训练的经验可以有效迁移到另一种形态
  2. 数据规模效应:600 万+轨迹的大规模数据是性能优势的关键来源
  3. AML 的核心贡献:动作流形学习是 30% 提升的主要贡献者

复现评估

维度评分详细说明
数据可得性⭐⭐⭐⭐⭐UniACT 数据集完全开源,600 万+轨迹
代码可得性⭐⭐⭐⭐⭐架构+训练框架+工具链完全开源
算力需求⭐⭐⭐大规模训练需要相当算力
工程复杂度⭐⭐⭐需要机器人硬件进行实际部署验证
预期收益⭐⭐⭐⭐⭐对具身智能研究和应用有重大推动

批判性分析

局限性

  1. Sim-to-Real Gap:基准测试主要在仿真环境中,真实物理环境的鲁棒性仍需验证
  2. 细粒度操作:对于精密装配、柔性物体操作等高精度任务的表现未知
  3. 实时性:推理延迟是否满足实时控制需求未充分说明

改进方向

  1. 在线自适应:结合 MetaClaw 式的闲时学习,让模型在部署中持续改进
  2. 多模态感知扩展:增加触觉传感器数据流
  3. 任务规划层:在操作基座上叠加高层任务规划能力

对领域的影响

ABot-M0 的全量开源(数据+算法+模型)在具身智能领域几乎前所未有。此前开源通常只涉及模型权重或算法代码,数据层面的开放极为稀缺。这将显著加速具身智能从学术走向产业,特别是对缺少数据积累的中小团队。


📌 2026-04-20 更新

从单个操作基座到全栈具身飞轮:高德把 ABot 升级成完整体系

  • 高德 4 月 19 日公开的不再只是 ABot-M0 单模型,而是完整的 ABot 全栈具身技术体系:数据层 ABot-World、模型层 ABot-N / ABot-M、应用层执行中枢 ABot-Claw。
  • 最关键的新信息是系统闭环被补齐:高德把“真实地图与时空数据 → 仿真与世界模型 → 导航/操作基座 → 机器人执行 → 真实反馈”串成了飞轮,这比 4 月 2 日仅看 ABot-M0 的意义大得多。
  • ABot-World 被明确为 14B DiT 世界模型:它以观测和动作为输入,在潜空间生成未来状态序列,并把 3DGS 重建、拉格朗日动力学与 Diffusion-DPO 物理偏好对齐框架揉进同一个训练闭环,目标是解决具身世界模型常见的“视觉像真但物理不真”问题。
  • ABot-N 和 ABot-M 的分工更清晰:ABot-N 负责跨本体导航,声称在 VLN-CE、HM3D-OVON、EVT-Bench 等 7 个基准上刷新 SOTA;ABot-M 继续承担通用操作基座角色,并把动作流形学习、语义流/动作流双流架构进一步包装成通用异构机器人“共享大脑”。
  • ABot-Claw 才是这次最像系统论文的部分:其核心理念是“Map as Memory”,把高德地图与用户私有地图作为全局认知锚点,让不同机器人共享持久化环境记忆,并通过集中式 Harness 架构完成调度、记忆、分层控制与跨机协作。
  • 开放环境验证补上了过去最缺的一块:四足机器人“途途”在亦庄半马公开演示导盲、复杂避障和人群穿行,虽然这仍不是工业通用落地,但比实验室内的封闭 benchmark 更能证明系统级闭环是否成立。
  • 评价修正:我们此前把 ABot-M0 视为“高德开源一个强操作基座模型”;今天必须修正为“高德正在把地图公司的时空资产、世界模型、导航、操作与执行中枢整合成具身智能全栈平台”。真正的壁垒不再只是单模型分数,而是飞轮转速与真实场景反馈回路。

新增信源: