Esc
输入关键词开始搜索
News

高德全量开源通用机器人基座模型 ABot-M0

高德全量开源通用机器人基座模型 ABot-M0

原文链接:https://www.aibase.com/zh/news/26764 来源:AIBase 发布日期:2026-04-02

速查卡

项目内容
一句话总结全球首个基于统一架构的通用机器人操作基座模型,Libero-Plus 成功率 80.5%,比 Pi0 提升近 30%
大白话版以前每种机器人都需要单独训练大脑,现在一个通用大脑就能适配多种不同形态的机器人
核心数字Libero-Plus 80.5% / 比 Pi0 +30% / 600 万+操作轨迹 / 三大维度全量开源
评级A — 具身智能领域里程碑式的全量开源
代码数据+算法+模型三层完全开源
关键词具身智能, 通用机器人, 操作基座模型, AML, UniACT, 双流感知

核心 Insight

具身智能领域最大的痛点是”异构硬件壁垒”——每种机器人形态(双臂协作机械臂、单臂服务机器人、人形机器人等)都需要独立训练的操作策略,导致开发成本极高、经验难以复用。

ABot-M0 的核心洞察是:如果将动作空间统一映射到一个共享的”动作流形”(Action Manifold)中,不同形态机器人的操作可以在同一个表示空间中学习和迁移。这类似于 NLP 中的”统一 tokenization”——将不同模态的信息映射到同一个 token 空间中。

为什么这个想法 work?

  1. 动作流形学习(AML):不同机器人的动作虽然在物理空间中形态各异,但在抽象的”操作意图”空间中共享大量结构。抓取、推动、旋转等基本操作在流形空间中可以被统一表示
  2. 双流感知架构:同时处理视觉(RGB/深度)和本体感受(关节角度/力矩),两个信息流在特征层面融合,赋予模型空间理解能力
  3. 600 万+真实轨迹的规模效应:UniACT 数据集是目前最大的通用机器人操作数据集,跨越多种机器人形态和任务类型

方法详解

整体架构

多模态输入(视觉+本体感受)

双流感知编码器(视觉流 + 本体感受流)

特征融合层

动作流形学习(AML)

统一动作空间表示

解码为特定机器人的物理动作

关键技术组件

组件 1: UniACT 数据集

做什么: 提供跨形态、跨任务的大规模操作训练数据

规模: 600 万+条真实操作轨迹

覆盖: 多种机器人形态(单臂/双臂/移动操作)× 多种任务类型(抓取/放置/操作/导航)

配套工具: 完整的数据处理管线,从异构格式到标准化训练数据

组件 2: 动作流形学习(AML)

做什么: 将不同形态机器人的动作映射到统一的低维流形空间

关键创新: 在流形空间中学习跨形态的操作共性,而非在物理空间中独立训练

组件 3: 双流感知架构

做什么: 同时处理视觉和本体感受信息

视觉流: RGB/深度图像 → 空间特征提取 本体感受流: 关节角度/力矩/末端执行器位姿 → 动作状态编码

实验结果

主实验

方法Libero-PlusLiberoRoboCasa
Pi0~50.5%
RT-2
ABot-M080.5%SOTASOTA
相对 Pi0 提升+30%

关键发现

  1. 跨形态泛化:在一种机器人形态上训练的经验可以有效迁移到另一种形态
  2. 数据规模效应:600 万+轨迹的大规模数据是性能优势的关键来源
  3. AML 的核心贡献:动作流形学习是 30% 提升的主要贡献者

复现评估

维度评分详细说明
数据可得性⭐⭐⭐⭐⭐UniACT 数据集完全开源,600 万+轨迹
代码可得性⭐⭐⭐⭐⭐架构+训练框架+工具链完全开源
算力需求⭐⭐⭐大规模训练需要相当算力
工程复杂度⭐⭐⭐需要机器人硬件进行实际部署验证
预期收益⭐⭐⭐⭐⭐对具身智能研究和应用有重大推动

批判性分析

局限性

  1. Sim-to-Real Gap:基准测试主要在仿真环境中,真实物理环境的鲁棒性仍需验证
  2. 细粒度操作:对于精密装配、柔性物体操作等高精度任务的表现未知
  3. 实时性:推理延迟是否满足实时控制需求未充分说明

改进方向

  1. 在线自适应:结合 MetaClaw 式的闲时学习,让模型在部署中持续改进
  2. 多模态感知扩展:增加触觉传感器数据流
  3. 任务规划层:在操作基座上叠加高层任务规划能力

对领域的影响

ABot-M0 的全量开源(数据+算法+模型)在具身智能领域几乎前所未有。此前开源通常只涉及模型权重或算法代码,数据层面的开放极为稀缺。这将显著加速具身智能从学术走向产业,特别是对缺少数据积累的中小团队。