News

高德全量开源通用机器人基座模型 ABot-M0

原文链接：https://www.aibase.com/zh/news/26764 来源：AIBase 发布日期：2026-04-02

速查卡

项目	内容
一句话总结	全球首个基于统一架构的通用机器人操作基座模型，Libero-Plus 成功率 80.5%，比 Pi0 提升近 30%
大白话版	以前每种机器人都需要单独训练大脑，现在一个通用大脑就能适配多种不同形态的机器人
核心数字	Libero-Plus 80.5% / 比 Pi0 +30% / 600 万+操作轨迹 / 三大维度全量开源
评级	A — 具身智能领域里程碑式的全量开源
代码	数据+算法+模型三层完全开源
关键词	具身智能, 通用机器人, 操作基座模型, AML, UniACT, 双流感知

核心 Insight

具身智能领域最大的痛点是”异构硬件壁垒”——每种机器人形态（双臂协作机械臂、单臂服务机器人、人形机器人等）都需要独立训练的操作策略，导致开发成本极高、经验难以复用。

ABot-M0 的核心洞察是：如果将动作空间统一映射到一个共享的”动作流形”（Action Manifold）中，不同形态机器人的操作可以在同一个表示空间中学习和迁移。这类似于 NLP 中的”统一 tokenization”——将不同模态的信息映射到同一个 token 空间中。

为什么这个想法 work？

动作流形学习（AML）：不同机器人的动作虽然在物理空间中形态各异，但在抽象的”操作意图”空间中共享大量结构。抓取、推动、旋转等基本操作在流形空间中可以被统一表示
双流感知架构：同时处理视觉（RGB/深度）和本体感受（关节角度/力矩），两个信息流在特征层面融合，赋予模型空间理解能力
600 万+真实轨迹的规模效应：UniACT 数据集是目前最大的通用机器人操作数据集，跨越多种机器人形态和任务类型

方法详解

整体架构

多模态输入（视觉+本体感受）
    ↓
双流感知编码器（视觉流 + 本体感受流）
    ↓
特征融合层
    ↓
动作流形学习（AML）
    ↓
统一动作空间表示
    ↓
解码为特定机器人的物理动作

关键技术组件

组件 1: UniACT 数据集

做什么： 提供跨形态、跨任务的大规模操作训练数据

规模： 600 万+条真实操作轨迹

覆盖： 多种机器人形态（单臂/双臂/移动操作）× 多种任务类型（抓取/放置/操作/导航）

配套工具： 完整的数据处理管线，从异构格式到标准化训练数据

组件 2: 动作流形学习（AML）

做什么： 将不同形态机器人的动作映射到统一的低维流形空间

关键创新： 在流形空间中学习跨形态的操作共性，而非在物理空间中独立训练

组件 3: 双流感知架构

做什么： 同时处理视觉和本体感受信息

视觉流： RGB/深度图像 → 空间特征提取 本体感受流： 关节角度/力矩/末端执行器位姿 → 动作状态编码

实验结果

主实验

方法	Libero-Plus	Libero	RoboCasa
Pi0	~50.5%	—	—
RT-2	—	—	—
ABot-M0	80.5%	SOTA	SOTA
相对 Pi0 提升	+30%	—	—

关键发现

跨形态泛化：在一种机器人形态上训练的经验可以有效迁移到另一种形态
数据规模效应：600 万+轨迹的大规模数据是性能优势的关键来源
AML 的核心贡献：动作流形学习是 30% 提升的主要贡献者

复现评估

维度	评分	详细说明
数据可得性	⭐⭐⭐⭐⭐	UniACT 数据集完全开源，600 万+轨迹
代码可得性	⭐⭐⭐⭐⭐	架构+训练框架+工具链完全开源
算力需求	⭐⭐⭐	大规模训练需要相当算力
工程复杂度	⭐⭐⭐	需要机器人硬件进行实际部署验证
预期收益	⭐⭐⭐⭐⭐	对具身智能研究和应用有重大推动

批判性分析

局限性

Sim-to-Real Gap：基准测试主要在仿真环境中，真实物理环境的鲁棒性仍需验证
细粒度操作：对于精密装配、柔性物体操作等高精度任务的表现未知
实时性：推理延迟是否满足实时控制需求未充分说明

改进方向

在线自适应：结合 MetaClaw 式的闲时学习，让模型在部署中持续改进
多模态感知扩展：增加触觉传感器数据流
任务规划层：在操作基座上叠加高层任务规划能力

对领域的影响

ABot-M0 的全量开源（数据+算法+模型）在具身智能领域几乎前所未有。此前开源通常只涉及模型权重或算法代码，数据层面的开放极为稀缺。这将显著加速具身智能从学术走向产业，特别是对缺少数据积累的中小团队。

📌 2026-04-20 更新

从单个操作基座到全栈具身飞轮：高德把 ABot 升级成完整体系

高德 4 月 19 日公开的不再只是 ABot-M0 单模型，而是完整的 ABot 全栈具身技术体系：数据层 ABot-World、模型层 ABot-N / ABot-M、应用层执行中枢 ABot-Claw。
最关键的新信息是系统闭环被补齐：高德把“真实地图与时空数据 → 仿真与世界模型 → 导航/操作基座 → 机器人执行 → 真实反馈”串成了飞轮，这比 4 月 2 日仅看 ABot-M0 的意义大得多。
ABot-World 被明确为 14B DiT 世界模型：它以观测和动作为输入，在潜空间生成未来状态序列，并把 3DGS 重建、拉格朗日动力学与 Diffusion-DPO 物理偏好对齐框架揉进同一个训练闭环，目标是解决具身世界模型常见的“视觉像真但物理不真”问题。
ABot-N 和 ABot-M 的分工更清晰：ABot-N 负责跨本体导航，声称在 VLN-CE、HM3D-OVON、EVT-Bench 等 7 个基准上刷新 SOTA；ABot-M 继续承担通用操作基座角色，并把动作流形学习、语义流/动作流双流架构进一步包装成通用异构机器人“共享大脑”。
ABot-Claw 才是这次最像系统论文的部分：其核心理念是“Map as Memory”，把高德地图与用户私有地图作为全局认知锚点，让不同机器人共享持久化环境记忆，并通过集中式 Harness 架构完成调度、记忆、分层控制与跨机协作。
开放环境验证补上了过去最缺的一块：四足机器人“途途”在亦庄半马公开演示导盲、复杂避障和人群穿行，虽然这仍不是工业通用落地，但比实验室内的封闭 benchmark 更能证明系统级闭环是否成立。
评价修正：我们此前把 ABot-M0 视为“高德开源一个强操作基座模型”；今天必须修正为“高德正在把地图公司的时空资产、世界模型、导航、操作与执行中枢整合成具身智能全栈平台”。真正的壁垒不再只是单模型分数，而是飞轮转速与真实场景反馈回路。

新增信源：

https://www.qbitai.com/2026/04/403505.html