HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer
HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer
原文链接:https://arxiv.org/abs/2605.11061 代码仓库:https://github.com/HiDream-ai/HiDream-O1-Image 作者:Qi Cai、Jingwen Chen、Chengmin Gao、Zijian Gong、Yehao Li、Yingwei Pan、Yi Peng、Zhaofan Qiu、Kai Yu、Yiheng Zhang、Hao Ai、Siying Bai、Yang Chen、Zhihui Chen、Fengbin Gao、Ying Guo、Dong Li、Zhen Shen、Leilei Shi、Jing Wang、Siyu Wang、Yimeng Wang、Rui Zheng、Ting Yao、Tao Mei 机构:HiDream.ai 论文提交日期:2026-05-11 公开仓库更新:README 显示 8B 版于 2026-05-08 开源,技术报告于 2026-05-10 放出,Dev-2604 版于 2026-05-14 开源
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | 它想把文本、条件图像和原始像素都塞进同一个 Transformer token 空间里,直接抛弃 VAE + 外挂文本编码器的分裂架构。 |
| 大白话版 | 过去很多文生图模型像“多家公司拼装的流水线”,文字理解一套、图像压缩一套、生成又一套;HiDream 想把这些部件收回到一个大脑里,让模型直接看像素、理解文字、做编辑和个性化。 |
| 核心数字 | 8B 版 GenEval Overall 0.90;200B+ Pro 版 GenEval 0.92、DPG 90.30、CVTG-2K 平均 0.9222、LongText-Bench EN/ZH 分别 0.982/0.980。 |
| 评级 | A — 值得重点跟踪的架构级尝试,不只是又一个文生图 checkpoint。 |
| 代码 | 已开源:https://github.com/HiDream-ai/HiDream-O1-Image |
| 关键词 | Pixel-space DiT、Unified Transformer、文生图、图像编辑、长文本渲染、个性化生成、GRPO、Prompt Agent |
核心 Insight
HiDream 这篇报告最核心的洞察,不是“我们把参数做到了 200B+”,而是:图像生成模型之所以长期在复杂推理、长文本渲染、多任务统一上磕磕绊绊,很大一部分原因来自架构本身是裂开的。文本编码器负责理解文字,VAE 负责把像素压进 latent,生成 backbone 再在 latent 空间里做扩散。每一层都能工作,但它们不是同一种 token 语言,因此信息在模块边界上会损失、折叠,复杂约束很难完整传过去。
HiDream 的回答是把“文本 token、条件图 token、目标图像 patch token”统一扔进一个共享 token 空间,再用一个 decoder-only Transformer 去同时建模。它想把文生图、编辑、主体一致性生成这些任务,都重写成统一的 in-context 生成问题:给定一段自然语言、若干上下文条件,再让模型在像素空间里逐步恢复目标图像。
这个思路为什么重要?因为它等于否认了过去那条最常见的工程假设:图像生成一定要靠“先压缩再生成”的 latent 路线。HiDream 认为,随着 Transformer backbone 和训练规模上去,直接在像素空间里统一建模,不仅不会一定更差,反而更有机会保留文字细节、布局关系、多区域文本和复杂编辑条件。这也是它为什么特别强调 long-text rendering、instruction-based editing 和 subject-driven personalization:这些能力最容易暴露模块化架构的信息断裂问题。
为什么这个想法可能 work?
第一,统一 token 空间让不同模态不再通过多个独立子系统转译,而是在同一注意力图里直接发生交互。文本说“左上角挂一块写着‘静夜思’的旧墙牌匾”,这类布局、内容、风格和文字渲染约束,不需要经过“文本编码器 → latent 条件映射 → 生成器理解”的长链路,而是由同一 backbone 原生处理。
第二,像素空间避免了 VAE 压缩阶段对细粒度文字、边缘结构和局部几何关系的先天损伤。很多 latent 文生图系统生成长文字、复杂版式时容易糊、错字、漏字,本质上不是后端不会画,而是前端压缩时已经把高频信息弄丢了。
第三,它把图像编辑、IP 一致性、故事板式多面板生成等任务也一并视为“条件 token + 目标 token”的统一问题,这会天然增强多任务迁移。换句话说,统一架构的真正收益不只是一项 benchmark,而是降低“每多一个任务就多一套专门模块”的复杂度。
方法详解
整体架构
论文里的总 pipeline 可以概括成:
输入文字 / 条件图像 / 目标图像噪声化样本 → 统一多模态 token 化 → Unified Transformer (UiT) → 输出 clean image patch 预测 → 通过扩散/flow matching 逐步还原图像
更具体一点:
原始用户指令
↓
Reasoning-Driven Prompt Agent(先做推理和提示词重写)
↓
文本 token y
条件图像 token c(编辑图、参考图等)
目标图像噪声 patch token x_t
↓
拼接到共享 token 空间
↓
Hybrid Unified Attention Transformer
↓
线性预测头输出 clean patch
↓
图像重建
论文 Figure 5/7 要表达的核心是:相比 latent DiT 和“pixel-space 但外挂独立 text encoder”的做法,HiDream 试图做到真正的结构统一,而不是把多个模块并排摆在一起。
关键技术组件
组件 1:Reasoning-Driven Prompt Agent
做什么: 先把人类原始指令转成更明确、更结构化的生成条件。
怎么做: 论文明确写到,这个 agent 建在 Gemma 之上,带“thinking”机制。它不会把用户一句模糊 prompt 直接丢给生成模型,而是先显式推理空间布局、主体属性、物理逻辑、上下文关系,再输出更完整的 prompt。README 里也把它当成独立组成部分,甚至给了本地 Gemma-4-31B-it 和 OpenAI-compatible API 两种后端。
为什么重要: 这其实是在图像生成前面塞了一个“文本规划器”。很多复杂生成任务失败,不是图像模型画不出来,而是输入本身太模糊。HiDream 把这件事体系化了:先让语言模型把意图补全,再交给统一 backbone。
组件 2:Unified Multimodal Tokenization
做什么: 把文本、条件图像、生成目标统一编码进同一 token 空间。
怎么做: 论文把输入拆成三类 token:
- Text Tokens
y:Prompt Agent 输出的 refined prompt,经 backbone 原生词表离散化后映射到共享空间。 - Condition Tokens
c:编辑图或参考主体图先经 SigLip-2 编成语义 token,再通过 learnable projection 对齐到共享空间。 - Generation Token
x_t:目标图像先和高斯噪声混合,形成扩散时刻t的 noisy sample,再切成非重叠 patch,映射进共享空间。
关键公式:
其中:
x是干净目标图像t是扩散时间步\epsilon是高斯噪声x_t是当前时间步的 noisy image token 表示
直觉解释: 这就是把“要生成的图”先打散成一张带噪图片,然后让模型学会从任意噪声比例往回恢复。关键在于 HiDream 并不是在 latent 网格里恢复,而是在 patch 化后的像素空间里恢复。
数值例子:
如果一张 1024×1024 图像被切成固定 patch,那么每个 patch 都会被看成生成序列中的一个 token;当 t=0.7 时,图里保留更多原图结构;当 t=0.2 时,图像更接近纯噪声,模型需要更依赖文本和条件图来恢复结构。
组件 3:Unified Transformer (UiT) Backbone
做什么: 在同一 backbone 里同时处理文本因果建模和图像扩散建模。
怎么做:
- 采用 decoder-only Transformer 堆栈。
- 8B 版从 Qwen3-VL-8B-Instruct 初始化,借多模态预对齐能力起步。
- 200B+ 版把同一架构放大到 2000 亿级以上。
- 归一化用 RMSNorm,激活函数用 SwiGLU,位置编码用 RoPE。
- diffusion timestep 被编码成额外 specialized token。
组件 4:Hybrid Unified Attention
做什么: 解决语言模型的 causal attention 和图像扩散的 full attention 天生冲突。
怎么做:
- 文本 token 与条件 token 仍遵循 causal masking,只看前文。
- 生成 token 则采用 full attention,可以看见所有 token。
直觉解释: 这相当于把一台 LLM 和一台 DiT 的注意力规则拼成混合版:语言部分仍然保持自回归秩序,图像生成部分则保留全局空间汇聚能力。这样既不破坏 LLM 继承来的语言能力,也不给图像生成套上过于僵硬的因果约束。
组件 5:联合训练目标
做什么: 在像素空间里兼顾局部细节恢复和长程语义一致性。
怎么做: 论文说它把 flow matching 风格的图像预测损失和感知监督绑在一起,用了 LPIPS loss 和 perceptual DINO loss。作者明确承认:像素空间虽然能保细节,但长程语义一致性更难,因此需要额外 perceptual supervision 拉住高层语义。
训练策略
Progressive Generalist Pre-training
论文给的是一个三阶段 progressive strategy:
- Stage I:512×512,联合训练 T2I、LM、MMU,用大规模图文对 + 纯文本语料做 foundational alignment。
- Stage II:1024×1024,加入 in-context generation / editing / subject-driven personalization,把统一架构推向多任务场景。
- Stage III:2048×2048,只在超高分辨率子集上做高保真 refinement。
这套设计很合理:先在低分辨率和大 batch 上打通语言—像素语义对齐,再逐步抬分辨率和任务复杂度,否则 200B+ 像素空间训练成本会直接失控。
Post-training
后训练分两步:
- SFT:用几十万高质量样本强化构图、美学、真实感和 Prompt Agent 的 reasoning 轨迹;同时把 pre-training 里的 Logit-Normal timestep sampling 改成 uniform sampling,让后期去噪步骤被更均匀覆盖。
- RLHF:使用 GRPO,把 OCR accuracy、审美、指令遵循、推理质量等多个 reward 聚成 composite advantage function,继续压 artefact、提文本渲染和逻辑一致性。
Fast Inference
论文单列了一节 Adversarial Diffusion Distillation for Fast Inference,README 里也能看到不同 checkpoint 对应不同 inference steps:完整版 50 步、Dev 版 28 步。这说明作者并不只想拿 paper SOTA,还试图补齐真实可部署速度问题。
与现有方法的关键区别
| 维度 | 之前常见方法 | HiDream 方法 | 为什么更好 |
|---|---|---|---|
| 图像空间 | latent space + VAE | pixel space | 避免 VAE 对文字/细节信息的压缩损失 |
| 文本建模 | 外挂 text encoder | backbone 原生文本 token | 文字与图像在同一注意力图里交互 |
| 任务形态 | 文生图、编辑、个性化常拆模块 | 统一成 in-context generation | 降低多任务之间的接口割裂 |
| 前端理解 | 原始 prompt 直接进模型 | reasoning prompt agent 先重写 | 强化复杂约束解析 |
| attention 机制 | LLM causal / DiT full 各自一套 | hybrid unified attention | 兼顾语言继承与图像全局建模 |
实验结果
主实验:文本生成与复杂对齐
GenEval(组合生成)
| 方法 | 参数量 | Overall |
|---|---|---|
| GPT Image 2 | - | 0.89 |
| FLUX.2 [Dev] | 24B + 32B | 0.87 |
| Qwen-Image | 7B + 20B | 0.87 |
| HiDream-O1-Image | 8B | 0.90 |
| HiDream-O1-Image-Pro | 200B+ | 0.92 |
更细一点看,HiDream 8B 在 Position 上做到 0.93,已经明显高于 Qwen-Image 的 0.76;200B+ Pro 把 Color、Position、Attr 又往上推了一截。这很说明问题:统一 token 空间确实更利于复杂布局约束落地。
DPG-Bench(dense prompt alignment)
| 方法 | 参数量 | Overall |
|---|---|---|
| Seedream-4.0 | - | 88.63 |
| FLUX.2 [Dev] | 24B + 32B | 87.57 |
| Qwen-Image | 7B + 20B | 88.32 |
| HiDream-O1-Image | 8B | 89.83 |
| HiDream-O1-Image-Pro | 200B+ | 90.30 |
这里最值得注意的是 8B 版已经比 Qwen-Image 高 1.51 分,而 Pro 版继续领先。这说明它不是单靠大参数 brute force,8B 架构本身就已经吃到统一建模红利。
HPSv3(人类偏好)
| 方法 | 参数量 | All |
|---|---|---|
| GPT Image 2 | - | 10.21 |
| Qwen-Image | 7B + 20B | 9.94 |
| HiDream-O1-Image | 8B | 10.37 |
| HiDream-O1-Image-Pro | 200B+ | 10.47 |
这意味着它不只是“对 benchmark 更听话”,在人类偏好分上也站得住。
长文本与多区域文本渲染
CVTG-2K
| 方法 | 参数量 | 平均词准确率 | NED | CLIP Score |
|---|---|---|---|---|
| Qwen-Image | 7B + 20B | 0.8288 | 0.9116 | 0.8017 |
| FLUX.2 [Dev] | 24B + 32B | 0.8926 | 0.9475 | 0.8104 |
| HiDream-O1-Image | 8B | 0.9128 | 0.9561 | 0.8076 |
| HiDream-O1-Image-Pro | 200B+ | 0.9222 | 0.9628 | 0.8349 |
这组结果几乎就是这篇 paper 的“判官”。因为复杂多区域文本生成最能检验 VAE 压缩损失和跨模块信息丢失问题。HiDream 在这里的优势很符合其架构叙事。
LongText-Bench
| 方法 | 参数量 | EN | ZH |
|---|---|---|---|
| GPT Image 2 | - | 0.960 | 0.961 |
| Nano Banana 2.0 | - | 0.980 | 0.965 |
| Qwen-Image | 7B + 20B | 0.943 | 0.946 |
| HiDream-O1-Image | 8B | 0.979 | 0.978 |
| HiDream-O1-Image-Pro | 200B+ | 0.982 | 0.980 |
中文长文本渲染做到 0.980,这对中国团队尤其重要,因为这不是纯英文海报 benchmark,而是直接指向更难的多字形、多结构文字生成问题。
图像编辑与个性化
GEdit
| 方法 | Q-SC | Q-PQ | Q-O |
|---|---|---|---|
| GPT Image 2 | 7.94 | 7.60 | 7.67 |
| Qwen-Image-Edit | 7.76 | 7.47 | 7.41 |
| HiDream-O1-Image | 7.99 | 7.42 | 7.60 |
| HiDream-O1-Image-Pro | 8.05 | 7.47 | 7.67 |
ImgEdit Overall
| 方法 | Overall |
|---|---|
| GPT Image 2 | 4.73 |
| Qwen-Image-Edit | 4.27 |
| HiDream-O1-Image | 4.14 |
| HiDream-O1-Image-Pro | 4.51 |
这里要诚实一点:8B 版在 ImgEdit Overall 上并没有全面压过 GPT Image 2,甚至低于 Qwen-Image-Edit 的一些细项。但 Pro 版显著拉回来,尤其在 Extract、Remove 这类更难编辑子项上提升明显。这反过来说明统一架构路线是成立的,但许多编辑能力仍依赖更大规模和更细后训练才能释放。
SOTA 对照矩阵
| 方法 | 架构特点 | 参数量 | 强项 | 弱项 |
|---|---|---|---|---|
| FLUX.2 [Dev] | 大型模块化生成系统 | 24B + 32B | 泛化强,成熟度高 | 长文本和统一多任务不是最极致 |
| Qwen-Image | 7B + 20B | 中文生态强、综合均衡 | 仍带分裂式模块痕迹 | |
| GPT Image 2 | 闭源 | - | 编辑与人类偏好稳定 | 黑箱,不可复现 |
| HiDream-O1-Image | 原生统一像素空间 UiT | 8B | 布局、文本渲染、多任务统一 | 编辑全项尚未全面压闭源 |
| HiDream-O1-Image-Pro | 同架构放大到 200B+ | 200B+ | 多数文本/对齐 benchmark 登顶 | 成本极高、复现门槛极高 |
复现评估
| 维度 | 评分(1-5) | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐ | 论文详细讲了采集、去重、质量与安全过滤,但没有开放完整训练数据。 |
| 代码可得性 | ⭐⭐⭐⭐ | GitHub 已开,README 很完整,推理脚本、prompt agent、Web demo 都给了。 |
| 算力需求 | ⭐ | 8B 推理还能摸,200B+ 训练与部署基本是大厂级别。 |
| 工程复杂度 | ⭐⭐ | 统一架构很优雅,但像素空间 + 混合注意力 + 多阶段训练的工程门槛很高。 |
| 预期收益 | ⭐⭐⭐⭐ | 如果你做的是高文本可控生成、海报、多区域文字、复杂编辑,路线非常值得跟。 |
复现建议: 最现实的路径不是想复刻 200B+,而是先从开源 8B / Dev 版出发,重点验证三件事:
- 统一 token 空间是否真的在中文长文本和版式任务上比现有开源路线稳;
- Prompt Agent 对复杂需求解析到底贡献多大;
- pixel-space 路线在速度、显存和输出质量上的真实 trade-off 是否可接受。
批判性分析
局限性(论文承认的 + 我们看到的)
论文的高光很足,但有几个现实问题不能跳过。
第一,HiDream 把许多结果都写得很漂亮,但对训练成本、tokens、GPU 小时、总算力消耗没有给出足够细的量化口径。对一篇强调“200B+ 可扩展性”的工作来说,这个缺口很大。因为对行业最关键的问题其实是:这个统一路线究竟是“能做出来”,还是“单位成本也划算”。
第二,Prompt Agent 贡献和 backbone 贡献还没有被彻底拆开。论文多次强调 reasoning-driven prompt refinement 很重要,但公开结果里没有足够强的独立消融,告诉我们“去掉 Prompt Agent 会掉多少”“只换统一架构不换前端 agent 会怎样”。这会让人怀疑一部分收益到底来自生成 backbone,还是来自输入工程强化。
第三,8B 版虽然在文本生成和对齐上很亮眼,但在某些编辑 benchmark 上并没有形成全面碾压。这意味着“统一一切”的代价是某些子任务未必天然最优,后训练和专门化数据仍然重要。
第四,200B+ Pro 的 SOTA 叙事很强,但真正落地还取决于推理成本、吞吐和部署工具链。今天它更像一个方向性证明:Unified Transformer 可以放大到这个规模,而不是说明整个市场会马上跟进这条路线。
改进方向
- 做更干净的消融: 把 Prompt Agent、pixel-space、hybrid attention、GRPO 奖励拆开,分别量化贡献。
- 补齐成本口径: 给出训练 GPU 小时、推理延迟、显存曲线、不同步数质量曲线,这会比单纯 benchmark 更能说服产业侧。
- 做更广的真实任务评测: 比如电商海报、UI mockup、故事板、多语种教材图,这些场景比通用 benchmark 更能证明统一路线的商业价值。
独立观察
- 这篇工作和“LLM 一统多模态”的大趋势是同一方向,只不过它把落点放在图像生成,而不是视频理解或 omni chat。
- 它特别值得中国团队关注,因为中文长文本渲染、海报、PPT、营销物料、本地化电商图,恰好是最讨厌 VAE 压缩和模块断裂的场景。
- 从 README 看,团队非常强调 Prompt Agent,这说明图像模型竞争已经不再只是 backbone 竞赛,而是“前端规划 + 后端生成”的系统工程竞赛。
对领域的影响
短期看,HiDream 会逼开源文生图社区重新认真讨论一件事:VAE + 外挂 text encoder 这套经典管线是不是已经接近天花板,尤其是在复杂文本、多区域布局、长文本渲染和统一编辑任务上。
中期看,如果更多结果验证它的单位成本并不过分夸张,那么“像素空间统一 Transformer”会成为一条真正可竞争的主线,而不是论文里的异端路线。尤其当 agent 先行规划、生成模型后执行的工作流成为常态时,HiDream 这种“Prompt Agent + Unified Backbone”的组合会比单纯比图像美感更有产业价值。
长期看,这条路线的真正价值不一定停在图像。它更像在试一件更大的事:把不同模态、不同任务、不同条件都拉回同一种 token 语言,让生成系统从拼装流水线重新变成一个统一智能体。如果这件事成立,它影响的不只是文生图,而是下一代多模态 foundation model 的设计哲学。