Esc
输入关键词开始搜索
News

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

原文链接:https://arxiv.org/abs/2604.07430 作者:Xumin Yu, Zuyan Liu, Ziyi Wang, He Zhang, Yongming Rao, Fangfu Liu 等 21 位 机构:Tencent Robotics X 实验室 & HY Vision Team 发布日期:2026-04-08

速查卡

项目内容
一句话总结腾讯 Robotics X 开源具身基础模型,MoT 架构以 2B 激活参数在 22 项基准中赢得 16 项,实际机器人任务最高 85% 成功率
大白话版腾讯做了一个专门让机器人”看懂世界”并执行任务的 AI 模型。它用了一个聪明的架构(图像和文字走不同的”神经网络分支”),结果用很少的计算量(2B 激活参数)打败了参数量更大的竞争对手。更难得的是,它真的在真实机器人上测试并公开了成功率数字,不只是 benchmark 刷分。
核心数字2B 激活参数赢 16/22 基准;Mug Hanging 成功率 75%(vs π0.5 的 50%);平均分 58.0%(超 Qwen3-VL-4B 10.2pp)
评级B — 重要进展,MoT 在具身 AI 的成功应用,开源可直接验证
代码开源:https://github.com/Tencent-Hunyuan/HY-Embodied
关键词MoT, 具身 AI, 空间推理, VLA, GRPO, 在线策略蒸馏, 腾讯 Robotics X

核心 Insight

具身 AI 的根本挑战:为什么通用 VLM 不够?

当前最强的视觉语言模型(GPT-4V、Gemini、Claude)在回答”图片里有什么”时表现出色,但让机器人用这些模型来执行现实任务时,失败率极高。原因在于两种能力的根本差异:

  • 通用 VLM 擅长:图像描述、常识问答、视觉理解(“这张图里有一只猫”)
  • 具身任务需要:精确空间推理(“这个杯子距离我手臂 23cm,角度 35°”)、时序动作规划(“先移动手臂到抓取位,再旋转腕部 90°”)、物理感知(“这个物体的材质是否允许直接抓取”)

HY-Embodied-0.5 的核心 Insight 是:空间-时间理解和具身推理需要专门的数据组成和模型架构,不能靠大量通用数据稀释出来。模型要真正”理解”三维世界,需要明确地训练深度估计、轨迹预测、多视角对应、时序动作序列。

为什么 MoT 是关键选择?

现有的多模态 VLM 通常用”一套权重打天下”——视觉 token 和文本 token 走同一个 FFN(前馈神经网络)。这在通用场景下是合理的(因为节省参数),但在需要精确空间推理的具身场景中,用处理文字的同一套参数来理解”这个工具头偏左 8cm”会造成模式冲突。

MoT(Mixture-of-Transformers)的思路是:让视觉 token 和文本 token 各走自己的 QKV 和 FFN 权重。视觉路径保留了双向注意力(图像没有时序因果约束),文本路径保留了因果注意力(语言生成需要)。

关键工程细节:MoT 不是从零训练两套权重——而是复制预训练 LLM 的 FFN 和 QKV 参数,用原始权重初始化视觉路径,再在多模态训练中让两条路径各自特化。这意味着:

  • 参数量翻倍(多了一份 FFN),但激活参数不变(每个 token 只走一条路径)
  • 推理时延接近 2B 密集基线(几乎没有 overhead)
  • 模态特化在训练中自然涌现,而非人工设计

方法详解

整体架构

输入: 图像序列 + 文本指令

  ├─ HY-ViT 2.0 (400M)
  │   ├─ 任意分辨率原生支持
  │   ├─ 离散表示 (codebook 2k, 8×8 patch)
  │   └─ 视觉潜在 token (learnable, 全局对齐)

  ├─ MoT 融合层
  │   ├─ 视觉 token → 复制的 QKV/FFN + 双向注意力
  │   └─ 文本 token → 原始 QKV/FFN + 因果注意力

  └─ 输出
      ├─ 语言回复 (文本)
      ├─ 空间预测 (坐标, 深度, 轨迹)
      └─ VLA 控制信号 (下游机器人接口)

两个规模档位:

  • MoT-2B:4B 总参数,2.2B 激活参数,面向边缘设备/机器人本地推理
  • MoE-A32B:约 32B 激活参数,面向高精度推理任务

关键技术组件

组件 1: HY-ViT 2.0

做什么: 将输入图像转换为视觉 token,同时学习全局场景理解和离散视觉表示。

怎么做:

  • 任意分辨率支持:机器人摄像头输入分辨率不固定,ViT 需要在任意尺寸下稳定工作

  • 双重监督信号:

    • 视觉重建损失:通过 codebook(大小 2000)学习离散视觉表示,监督目标是下一个视觉 code 的预测

    Lvision=1Nvilogpi(zi)L_\text{vision} = -\frac{1}{N_v} \sum_i \log p_i(z_i)

    • 全局对齐损失:可学习的”潜在 token”(Latent Token)与更大的教师 ViT 的全局特征对齐

    Lglobal=flatentfteacherflatentfteacherL_\text{global} = -\frac{f'_\text{latent} \cdot f_\text{teacher}}{\|f_\text{latent}\| \|f_\text{teacher}\|}

    • 总损失:Ltotal=Lllm+Lvision+LglobalL_\text{total} = L_\text{llm} + L_\text{vision} + L_\text{global}

直觉解释: 用”重建图像”和”匹配大模型特征”两个任务强迫 ViT 既学习精细局部信息(重建需要),也学习全局语义(匹配需要)。

组件 2: MoT(Mixture-of-Transformers)多模态融合

做什么: 让视觉信息和语言信息在 Transformer 中用各自适合的路径处理,避免模态间的参数冲突。

怎么做: 在每个 Transformer 层中:

  • 视觉 token → 复制的 FFN + 复制的 QKV(视觉特化路径)
  • 文本 token → 原始 FFN + 原始 QKV(语言特化路径)
  • 注意力机制:视觉用双向注意力,文本用因果注意力

关键工程细节:

初始化: 复制预训练 LLM 的 FFN 和 QKV 权重
        视觉路径 ← 预训练权重 (拷贝)
        文本路径 ← 预训练权重 (原始)
训练: 两条路径各自特化,互不干扰
推理: 每个 token 只通过一条路径,无 overhead

为什么 overhead 接近零: 尽管参数量翻倍,但每次前向传播中 视觉 token 走视觉路径,文本 token 走文本路径。不存在”判断走哪条路”的额外计算(类似 MoE 的 router overhead),因为模态本身就是判断条件。

组件 3: 三阶段迭代自进化后训练

这是论文中最重要的训练创新,解决了具身模型从”能力存在”到”推理激活”的跨越问题。

Stage 1 — Cold-Start SFT(冷启动):

  • 数据:约 10 万条人机协作构建的思维链(Chain-of-Thought)实例
  • 目标:让模型学会”有结构地思考具身任务”
  • 质量标准:从推理质量和逻辑正确性两个维度评估

Stage 2 — GRPO 强化学习(能力探索):

  • 动态数据构建:丢弃”全对”的(太简单)和”全错”的(太难)样本,保留”部分成功”的样本。这确保了 RL 训练始终在”当前能力的边界”上探索。
  • 相对优势归一化:Ai=riμ(r)σ(r)A_i = \frac{r_i - \mu(r)}{\sigma(r)}(组内相对排名,避免绝对奖励标度影响)
  • 任务感知奖励设计(针对具身任务特化):
任务类型奖励设计
抓取/检测IoU(交并比)、中心距离误差
回归预测数值误差(如深度估计的 RMSE)
轨迹规划DTW(动态时间规整)、弗雷歇距离
文本理解LLM-as-Judge 后备评分
  • 训练参数:组大小 G=16,每轮 5 万样本,5 个 epoch,学习率 8×10⁻⁷

Stage 3 — 拒绝采样微调(RFT,能力固化):

  • 从约 100 万候选中过滤出约 30 万条高质量轨迹
  • 通过 SFT 将 RL 阶段发现的高质量推理模式”固化”成稳定行为
  • 作用:RL 给了模型探索新解法的能力,RFT 把好的解法稳定下来,防止 RL 训练的高方差

组件 4: 在线策略蒸馏(大模型 → 小模型)

做什么: 将 32B 大模型的高级推理能力迁移到 2B 小模型,同时保留小模型的推理效率。

怎么做: 最小化 KL 散度,但关键在于”在学生模型自己的解码状态上”计算 KL——而不是拿教师模型生成的序列做模仿学习:

LOPD=E[1ytKL(πt(x,y<t)πs(x,y<t))]L_\text{OPD} = \mathbb{E}\left[\frac{1}{|y|} \sum_t \text{KL}\left(\pi_t(\cdot | x, y_{<t}) \| \pi_s(\cdot | x, y_{<t})\right)\right]

直觉: 传统知识蒸馏是”学生看教师的答案,然后模仿”。这里的 On-Policy 蒸馏是”学生自己解码到当前位置,然后对比教师在同一位置的分布”——这给了学生更丰富的信号(不只是终止答案,而是每一步的策略分布),且避免了分布偏移问题。

训练数据组成

预训练语料(625B token):

  • 通用理解数据:389B token
  • 具身与感知数据:236B token
    • 空间与机器人数据:43%
    • 视觉感知数据:57%

视觉感知数据(约 1.14 亿样本):

类别样本量内容
全能检测(Omni-Detection)6200万2D/3D 边界框
深度估计3600万绝对深度 + 相对深度
图像分割500万来自 SA-1B
指向与计数1100万空间定位

空间核心数据(5 大类):

  • 对应关系:跨帧点匹配、2D-3D 映射
  • 几何:深度估计、深度对比
  • 配置:物体计数、相对位置
  • 度量:尺寸、距离、房间面积估计
  • 动态:相机自运动、物体运动跟踪

中间训练阶段(25M 样本): 混合比例 = 通用:具身:空间 = 12:5:3

实验结果

主实验:2B 激活参数 vs 竞品

以下是 HY-MoT-2B 在 22 项基准中的完整对比(参数更大的竞品以灰色标注):

基准HY-MoT-2BQwen3-VL-2BRoboBrain-2.5MiMo-Embodied-7B
视觉感知
CV-Bench89.280.085.788.8
DA-2K92.369.576.572.2
具身理解
ERQA54.541.847.346.8
EmbSpatial-Bench82.875.980.776.2
RoboBench-MCQ49.236.945.843.6
RoboBench-Planning54.236.236.458.7
RoboSpatial-Home55.745.363.261.8
ShareRobot-Affordance26.819.825.59.0
ShareRobot-Trajectory73.341.662.250.6
Ego-Plan245.535.538.839.9
空间理解
3DSRBench57.039.943.942.0
All-Angles Bench55.142.346.749.0
MindCube66.328.431.036.2
MMSI-Bench33.223.625.131.9
RefSpatial-Bench45.828.945.348.0
SAT76.745.356.778.7
SIBench-mini58.242.050.953.1
SITE-Bench-Image62.752.361.049.9
SITE-Bench-Video63.552.258.058.9
ViewSpatial53.137.241.636.1
VSIBench60.548.055.248.5
Where2Place68.045.059.063.6
平均58.042.2(估)50.7(估)51.5(估)

解读:

  • 赢 16/22 项,平均分 58.0%,比 Qwen3-VL-4B(注意:比较对象是 4B 而非 2B)高 10.2pp
  • 输掉的 6 项(RoboBench-Planning、RoboSpatial-Home、RefSpatial-Bench、SAT、RoboBench-Planning、Where2Place 子集)集中在”需要长时序规划”或”精确 3D 位置匹配”的任务,这是 2B 规模在复杂空间推理上的自然上界

32B 大模型 vs 前沿闭源模型

模型机构平均分
HY-MoE-A32BTencent67.0
Seed 2.0ByteDance66.2
Qwen 3.5 A17BAlibaba66.1
Gemini 3.0 ProGoogle63.6
Kimi K2.5Moonshot61.1

HY-MoE-A32B 以 3.4 分优势超过 Gemini 3.0 Pro,且在 7 项任务(32%)中排名第一,6 项(27%)中排名第二。

真实机器人任务成功率

测试平台:双臂 Xtrainer 机器人,带头部和腕部摄像头

任务HY-VLAπ0.5π0
精密插件装配85%85%80%
餐具叠放80%85%60%
马克杯挂架75%50%45%

解读:

  • 马克杯挂架(Mug Hanging)是最能体现差距的任务:需要精确的三维空间感知和灵巧控制。HY-VLA 75% vs π0(Physical Intelligence)的 45%,差距高达 30pp。
  • 精密插件装配与 π0.5 持平(85%),说明在精细操作领域已达到最强具身 AI 创业公司的水平。
  • 预训练使用了 5000 小时的 UMI(Universal Manipulation Interface)数据,每项任务 SFT 使用 300-700 个真实机器人演示。

复现评估

维度评分详细说明
代码可得性⭐⭐⭐⭐GitHub 已开源:https://github.com/Tencent-Hunyuan/HY-Embodied,含权重
数据可得性⭐⭐⭐预训练数据部分内部数据集,但评测数据集大多公开
算力需求⭐⭐MoT-2B 可在单 GPU 推理,但训练仍需多卡(Stage 2 GRPO 需要大批量)
工程复杂度⭐⭐⭐三阶段训练流程较复杂,但有代码参考;VLA 控制器接口需额外配置
预期收益⭐⭐⭐⭐对具身 AI 研究者直接可用;对机器人工程师需要额外的控制器适配

复现建议:

  1. 直接下载 HY-MoT-2B 权重,在标准具身基准上跑推理评测(最快路径,1-2 天)
  2. 如需在自己机器人上部署,参考 VLA 章节的控制器接口说明,需要额外的机械臂适配工作
  3. 三阶段训练流程如需复现,预估需要 8 张 A100 以上 GPU,分阶段约 1-2 周

批判性分析

局限性

论文承认的:

  • 没有明确讨论局限性章节(这本身是一个局限)

我们额外观察到的:

  1. 基准分布偏移问题依然存在: 22 项基准中的任务设计(即使是具身专项的),与真正开放世界的机器人操作仍有较大差距。Robot 实验只用了 3 种任务,而真实家庭/工厂场景的长尾任务分布要复杂得多。

  2. MoT overhead “接近零”的说法需要量化: 论文声称 MoT 推理时延接近密集 2B 基线,但没有给出具体延迟数字(ms)。对实时机器人控制(需要 >25fps),这个数字很关键。

  3. 5000 小时 UMI 预训练数据的可获得性: UMI 数据是人工演示采集的,5000 小时代表大量人工标注投入,这对资源有限的研究团队复现完整流程是瓶颈。

  4. “胜过参数量更大的竞品”的比较公平性: 和 Qwen3-VL-4B 比而非 Qwen3-VL-2B 比,说明 4B 密集模型在具身任务上仍不如 HY-MoT-2B(激活 2.2B)。但和 7B 级别竞品的比较中,HY-MoT-2B 在部分任务上输掉了——说明激活参数对能力上界的限制是真实存在的。

改进方向

  1. 更长任务序列的测试: 目前 3 种机器人任务都是单次动作序列,长时序规划(10+ 步骤)的表现未知。

  2. 跨机器人泛化性: 在 Xtrainer 上训练的 VLA 是否能直接泛化到其他机械臂平台(UR5、Franka)?这是具身 AI 商业化的关键问题。

  3. 在线持续学习: 目前训练-部署是分离的,机器人在实际使用中无法自我改进。RL 训练的经验是否可以在部署后持续累积?

对领域的影响

短期: HY-Embodied-0.5 的开源为具身 AI 社区提供了目前公认最强的边缘端开源基础模型,社区会基于此快速迭代应用(机械臂控制、仓储机器人、服务机器人)。

中期: MoT 架构的成功说明”模态特化分支 + 参数共享初始化”是一个值得更广泛探索的方向。它和 MoE 的精神类似但实现更简单——可能对通用多模态 VLM 的架构优化也有启发。

长期: 腾讯 Robotics X 开源具身基础模型,意味着腾讯已具备生态竞争底气。当 Google(Genie/RT-2)、Meta(开源 LLM for Robotics)、Anthropic(Computer Use)、腾讯都在具身 AI 赛道投入时,行业会快速进入平台收敛期。下一个竞争维度将是”数据飞轮”——谁有更多真实机器人演示数据,谁就有持续优势。