News
高德全量开源通用机器人基座模型 ABot-M0
高德全量开源通用机器人基座模型 ABot-M0
原文链接:https://www.aibase.com/zh/news/26764 来源:AIBase 发布日期:2026-04-02
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 全球首个基于统一架构的通用机器人操作基座模型,Libero-Plus 成功率 80.5%,比 Pi0 提升近 30% |
| 大白话版 | 以前每种机器人都需要单独训练大脑,现在一个通用大脑就能适配多种不同形态的机器人 |
| 核心数字 | Libero-Plus 80.5% / 比 Pi0 +30% / 600 万+操作轨迹 / 三大维度全量开源 |
| 评级 | A — 具身智能领域里程碑式的全量开源 |
| 代码 | 数据+算法+模型三层完全开源 |
| 关键词 | 具身智能, 通用机器人, 操作基座模型, AML, UniACT, 双流感知 |
核心 Insight
具身智能领域最大的痛点是”异构硬件壁垒”——每种机器人形态(双臂协作机械臂、单臂服务机器人、人形机器人等)都需要独立训练的操作策略,导致开发成本极高、经验难以复用。
ABot-M0 的核心洞察是:如果将动作空间统一映射到一个共享的”动作流形”(Action Manifold)中,不同形态机器人的操作可以在同一个表示空间中学习和迁移。这类似于 NLP 中的”统一 tokenization”——将不同模态的信息映射到同一个 token 空间中。
为什么这个想法 work?
- 动作流形学习(AML):不同机器人的动作虽然在物理空间中形态各异,但在抽象的”操作意图”空间中共享大量结构。抓取、推动、旋转等基本操作在流形空间中可以被统一表示
- 双流感知架构:同时处理视觉(RGB/深度)和本体感受(关节角度/力矩),两个信息流在特征层面融合,赋予模型空间理解能力
- 600 万+真实轨迹的规模效应:UniACT 数据集是目前最大的通用机器人操作数据集,跨越多种机器人形态和任务类型
方法详解
整体架构
多模态输入(视觉+本体感受)
↓
双流感知编码器(视觉流 + 本体感受流)
↓
特征融合层
↓
动作流形学习(AML)
↓
统一动作空间表示
↓
解码为特定机器人的物理动作
关键技术组件
组件 1: UniACT 数据集
做什么: 提供跨形态、跨任务的大规模操作训练数据
规模: 600 万+条真实操作轨迹
覆盖: 多种机器人形态(单臂/双臂/移动操作)× 多种任务类型(抓取/放置/操作/导航)
配套工具: 完整的数据处理管线,从异构格式到标准化训练数据
组件 2: 动作流形学习(AML)
做什么: 将不同形态机器人的动作映射到统一的低维流形空间
关键创新: 在流形空间中学习跨形态的操作共性,而非在物理空间中独立训练
组件 3: 双流感知架构
做什么: 同时处理视觉和本体感受信息
视觉流: RGB/深度图像 → 空间特征提取 本体感受流: 关节角度/力矩/末端执行器位姿 → 动作状态编码
实验结果
主实验
| 方法 | Libero-Plus | Libero | RoboCasa |
|---|---|---|---|
| Pi0 | ~50.5% | — | — |
| RT-2 | — | — | — |
| ABot-M0 | 80.5% | SOTA | SOTA |
| 相对 Pi0 提升 | +30% | — | — |
关键发现
- 跨形态泛化:在一种机器人形态上训练的经验可以有效迁移到另一种形态
- 数据规模效应:600 万+轨迹的大规模数据是性能优势的关键来源
- AML 的核心贡献:动作流形学习是 30% 提升的主要贡献者
复现评估
| 维度 | 评分 | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐⭐⭐⭐ | UniACT 数据集完全开源,600 万+轨迹 |
| 代码可得性 | ⭐⭐⭐⭐⭐ | 架构+训练框架+工具链完全开源 |
| 算力需求 | ⭐⭐⭐ | 大规模训练需要相当算力 |
| 工程复杂度 | ⭐⭐⭐ | 需要机器人硬件进行实际部署验证 |
| 预期收益 | ⭐⭐⭐⭐⭐ | 对具身智能研究和应用有重大推动 |
批判性分析
局限性
- Sim-to-Real Gap:基准测试主要在仿真环境中,真实物理环境的鲁棒性仍需验证
- 细粒度操作:对于精密装配、柔性物体操作等高精度任务的表现未知
- 实时性:推理延迟是否满足实时控制需求未充分说明
改进方向
- 在线自适应:结合 MetaClaw 式的闲时学习,让模型在部署中持续改进
- 多模态感知扩展:增加触觉传感器数据流
- 任务规划层:在操作基座上叠加高层任务规划能力
对领域的影响
ABot-M0 的全量开源(数据+算法+模型)在具身智能领域几乎前所未有。此前开源通常只涉及模型权重或算法代码,数据层面的开放极为稀缺。这将显著加速具身智能从学术走向产业,特别是对缺少数据积累的中小团队。