News

HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer

原文链接：https://arxiv.org/abs/2605.11061 代码仓库：https://github.com/HiDream-ai/HiDream-O1-Image 作者：Qi Cai、Jingwen Chen、Chengmin Gao、Zijian Gong、Yehao Li、Yingwei Pan、Yi Peng、Zhaofan Qiu、Kai Yu、Yiheng Zhang、Hao Ai、Siying Bai、Yang Chen、Zhihui Chen、Fengbin Gao、Ying Guo、Dong Li、Zhen Shen、Leilei Shi、Jing Wang、Siyu Wang、Yimeng Wang、Rui Zheng、Ting Yao、Tao Mei 机构：HiDream.ai 论文提交日期：2026-05-11 公开仓库更新：README 显示 8B 版于 2026-05-08 开源，技术报告于 2026-05-10 放出，Dev-2604 版于 2026-05-14 开源

速查卡

项目	内容
一句话总结	它想把文本、条件图像和原始像素都塞进同一个 Transformer token 空间里，直接抛弃 VAE + 外挂文本编码器的分裂架构。
大白话版	过去很多文生图模型像“多家公司拼装的流水线”，文字理解一套、图像压缩一套、生成又一套；HiDream 想把这些部件收回到一个大脑里，让模型直接看像素、理解文字、做编辑和个性化。
核心数字	8B 版 GenEval Overall 0.90；200B+ Pro 版 GenEval 0.92、DPG 90.30、CVTG-2K 平均 0.9222、LongText-Bench EN/ZH 分别 0.982/0.980。
评级	A — 值得重点跟踪的架构级尝试，不只是又一个文生图 checkpoint。
代码	已开源：https://github.com/HiDream-ai/HiDream-O1-Image
关键词	Pixel-space DiT、Unified Transformer、文生图、图像编辑、长文本渲染、个性化生成、GRPO、Prompt Agent

核心 Insight

HiDream 这篇报告最核心的洞察，不是“我们把参数做到了 200B+”，而是：图像生成模型之所以长期在复杂推理、长文本渲染、多任务统一上磕磕绊绊，很大一部分原因来自架构本身是裂开的。文本编码器负责理解文字，VAE 负责把像素压进 latent，生成 backbone 再在 latent 空间里做扩散。每一层都能工作，但它们不是同一种 token 语言，因此信息在模块边界上会损失、折叠，复杂约束很难完整传过去。

HiDream 的回答是把“文本 token、条件图 token、目标图像 patch token”统一扔进一个共享 token 空间，再用一个 decoder-only Transformer 去同时建模。它想把文生图、编辑、主体一致性生成这些任务，都重写成统一的 in-context 生成问题：给定一段自然语言、若干上下文条件，再让模型在像素空间里逐步恢复目标图像。

这个思路为什么重要？因为它等于否认了过去那条最常见的工程假设：图像生成一定要靠“先压缩再生成”的 latent 路线。HiDream 认为，随着 Transformer backbone 和训练规模上去，直接在像素空间里统一建模，不仅不会一定更差，反而更有机会保留文字细节、布局关系、多区域文本和复杂编辑条件。这也是它为什么特别强调 long-text rendering、instruction-based editing 和 subject-driven personalization：这些能力最容易暴露模块化架构的信息断裂问题。

为什么这个想法可能 work？

第一，统一 token 空间让不同模态不再通过多个独立子系统转译，而是在同一注意力图里直接发生交互。文本说“左上角挂一块写着‘静夜思’的旧墙牌匾”，这类布局、内容、风格和文字渲染约束，不需要经过“文本编码器 → latent 条件映射 → 生成器理解”的长链路，而是由同一 backbone 原生处理。

第二，像素空间避免了 VAE 压缩阶段对细粒度文字、边缘结构和局部几何关系的先天损伤。很多 latent 文生图系统生成长文字、复杂版式时容易糊、错字、漏字，本质上不是后端不会画，而是前端压缩时已经把高频信息弄丢了。

第三，它把图像编辑、IP 一致性、故事板式多面板生成等任务也一并视为“条件 token + 目标 token”的统一问题，这会天然增强多任务迁移。换句话说，统一架构的真正收益不只是一项 benchmark，而是降低“每多一个任务就多一套专门模块”的复杂度。

方法详解

整体架构

论文里的总 pipeline 可以概括成：

输入文字 / 条件图像 / 目标图像噪声化样本 → 统一多模态 token 化 → Unified Transformer (UiT) → 输出 clean image patch 预测 → 通过扩散/flow matching 逐步还原图像

更具体一点：

原始用户指令
  ↓
Reasoning-Driven Prompt Agent（先做推理和提示词重写）
  ↓
文本 token y
条件图像 token c（编辑图、参考图等）
目标图像噪声 patch token x_t
  ↓
拼接到共享 token 空间
  ↓
Hybrid Unified Attention Transformer
  ↓
线性预测头输出 clean patch
  ↓
图像重建

论文 Figure 5/7 要表达的核心是：相比 latent DiT 和“pixel-space 但外挂独立 text encoder”的做法，HiDream 试图做到真正的结构统一，而不是把多个模块并排摆在一起。

关键技术组件

组件 1：Reasoning-Driven Prompt Agent

做什么： 先把人类原始指令转成更明确、更结构化的生成条件。

怎么做： 论文明确写到，这个 agent 建在 Gemma 之上，带“thinking”机制。它不会把用户一句模糊 prompt 直接丢给生成模型，而是先显式推理空间布局、主体属性、物理逻辑、上下文关系，再输出更完整的 prompt。README 里也把它当成独立组成部分，甚至给了本地 Gemma-4-31B-it 和 OpenAI-compatible API 两种后端。

为什么重要： 这其实是在图像生成前面塞了一个“文本规划器”。很多复杂生成任务失败，不是图像模型画不出来，而是输入本身太模糊。HiDream 把这件事体系化了：先让语言模型把意图补全，再交给统一 backbone。

组件 2：Unified Multimodal Tokenization

做什么： 把文本、条件图像、生成目标统一编码进同一 token 空间。

怎么做： 论文把输入拆成三类 token：

Text Tokens y：Prompt Agent 输出的 refined prompt，经 backbone 原生词表离散化后映射到共享空间。
Condition Tokens c：编辑图或参考主体图先经 SigLip-2 编成语义 token，再通过 learnable projection 对齐到共享空间。
Generation Token x_t：目标图像先和高斯噪声混合，形成扩散时刻 t 的 noisy sample，再切成非重叠 patch，映射进共享空间。

关键公式：

x_t = t x + (1-t)\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)

其中：

x 是干净目标图像
t 是扩散时间步
\epsilon 是高斯噪声
x_t 是当前时间步的 noisy image token 表示

直觉解释： 这就是把“要生成的图”先打散成一张带噪图片，然后让模型学会从任意噪声比例往回恢复。关键在于 HiDream 并不是在 latent 网格里恢复，而是在 patch 化后的像素空间里恢复。

数值例子： 如果一张 1024×1024 图像被切成固定 patch，那么每个 patch 都会被看成生成序列中的一个 token；当 t=0.7 时，图里保留更多原图结构；当 t=0.2 时，图像更接近纯噪声，模型需要更依赖文本和条件图来恢复结构。

组件 3：Unified Transformer (UiT) Backbone

做什么： 在同一 backbone 里同时处理文本因果建模和图像扩散建模。

怎么做：

采用 decoder-only Transformer 堆栈。
8B 版从 Qwen3-VL-8B-Instruct 初始化，借多模态预对齐能力起步。
200B+ 版把同一架构放大到 2000 亿级以上。
归一化用 RMSNorm，激活函数用 SwiGLU，位置编码用 RoPE。
diffusion timestep 被编码成额外 specialized token。

组件 4：Hybrid Unified Attention

做什么： 解决语言模型的 causal attention 和图像扩散的 full attention 天生冲突。

怎么做：

文本 token 与条件 token 仍遵循 causal masking，只看前文。
生成 token 则采用 full attention，可以看见所有 token。

直觉解释： 这相当于把一台 LLM 和一台 DiT 的注意力规则拼成混合版：语言部分仍然保持自回归秩序，图像生成部分则保留全局空间汇聚能力。这样既不破坏 LLM 继承来的语言能力，也不给图像生成套上过于僵硬的因果约束。

组件 5：联合训练目标

做什么： 在像素空间里兼顾局部细节恢复和长程语义一致性。

怎么做： 论文说它把 flow matching 风格的图像预测损失和感知监督绑在一起，用了 LPIPS loss 和 perceptual DINO loss。作者明确承认：像素空间虽然能保细节，但长程语义一致性更难，因此需要额外 perceptual supervision 拉住高层语义。

训练策略

Progressive Generalist Pre-training

论文给的是一个三阶段 progressive strategy：

Stage I：512×512，联合训练 T2I、LM、MMU，用大规模图文对 + 纯文本语料做 foundational alignment。
Stage II：1024×1024，加入 in-context generation / editing / subject-driven personalization，把统一架构推向多任务场景。
Stage III：2048×2048，只在超高分辨率子集上做高保真 refinement。

这套设计很合理：先在低分辨率和大 batch 上打通语言—像素语义对齐，再逐步抬分辨率和任务复杂度，否则 200B+ 像素空间训练成本会直接失控。

Post-training

后训练分两步：

SFT：用几十万高质量样本强化构图、美学、真实感和 Prompt Agent 的 reasoning 轨迹；同时把 pre-training 里的 Logit-Normal timestep sampling 改成 uniform sampling，让后期去噪步骤被更均匀覆盖。
RLHF：使用 GRPO，把 OCR accuracy、审美、指令遵循、推理质量等多个 reward 聚成 composite advantage function，继续压 artefact、提文本渲染和逻辑一致性。

Fast Inference

论文单列了一节 Adversarial Diffusion Distillation for Fast Inference，README 里也能看到不同 checkpoint 对应不同 inference steps：完整版 50 步、Dev 版 28 步。这说明作者并不只想拿 paper SOTA，还试图补齐真实可部署速度问题。

与现有方法的关键区别

维度	之前常见方法	HiDream 方法	为什么更好
图像空间	latent space + VAE	pixel space	避免 VAE 对文字/细节信息的压缩损失
文本建模	外挂 text encoder	backbone 原生文本 token	文字与图像在同一注意力图里交互
任务形态	文生图、编辑、个性化常拆模块	统一成 in-context generation	降低多任务之间的接口割裂
前端理解	原始 prompt 直接进模型	reasoning prompt agent 先重写	强化复杂约束解析
attention 机制	LLM causal / DiT full 各自一套	hybrid unified attention	兼顾语言继承与图像全局建模

实验结果

主实验：文本生成与复杂对齐

GenEval（组合生成）

方法	参数量	Overall
GPT Image 2	-	0.89
FLUX.2 [Dev]	24B + 32B	0.87
Qwen-Image	7B + 20B	0.87
HiDream-O1-Image	8B	0.90
HiDream-O1-Image-Pro	200B+	0.92

更细一点看，HiDream 8B 在 Position 上做到 0.93，已经明显高于 Qwen-Image 的 0.76；200B+ Pro 把 Color、Position、Attr 又往上推了一截。这很说明问题：统一 token 空间确实更利于复杂布局约束落地。

DPG-Bench（dense prompt alignment）

方法	参数量	Overall
Seedream-4.0	-	88.63
FLUX.2 [Dev]	24B + 32B	87.57
Qwen-Image	7B + 20B	88.32
HiDream-O1-Image	8B	89.83
HiDream-O1-Image-Pro	200B+	90.30

这里最值得注意的是 8B 版已经比 Qwen-Image 高 1.51 分，而 Pro 版继续领先。这说明它不是单靠大参数 brute force，8B 架构本身就已经吃到统一建模红利。

HPSv3（人类偏好）

方法	参数量	All
GPT Image 2	-	10.21
Qwen-Image	7B + 20B	9.94
HiDream-O1-Image	8B	10.37
HiDream-O1-Image-Pro	200B+	10.47

这意味着它不只是“对 benchmark 更听话”，在人类偏好分上也站得住。

长文本与多区域文本渲染

CVTG-2K

方法	参数量	平均词准确率	NED	CLIP Score
Qwen-Image	7B + 20B	0.8288	0.9116	0.8017
FLUX.2 [Dev]	24B + 32B	0.8926	0.9475	0.8104
HiDream-O1-Image	8B	0.9128	0.9561	0.8076
HiDream-O1-Image-Pro	200B+	0.9222	0.9628	0.8349

这组结果几乎就是这篇 paper 的“判官”。因为复杂多区域文本生成最能检验 VAE 压缩损失和跨模块信息丢失问题。HiDream 在这里的优势很符合其架构叙事。

LongText-Bench

方法	参数量	EN	ZH
GPT Image 2	-	0.960	0.961
Nano Banana 2.0	-	0.980	0.965
Qwen-Image	7B + 20B	0.943	0.946
HiDream-O1-Image	8B	0.979	0.978
HiDream-O1-Image-Pro	200B+	0.982	0.980

中文长文本渲染做到 0.980，这对中国团队尤其重要，因为这不是纯英文海报 benchmark，而是直接指向更难的多字形、多结构文字生成问题。

图像编辑与个性化

GEdit

方法	Q-SC	Q-PQ	Q-O
GPT Image 2	7.94	7.60	7.67
Qwen-Image-Edit	7.76	7.47	7.41
HiDream-O1-Image	7.99	7.42	7.60
HiDream-O1-Image-Pro	8.05	7.47	7.67

ImgEdit Overall

方法	Overall
GPT Image 2	4.73
Qwen-Image-Edit	4.27
HiDream-O1-Image	4.14
HiDream-O1-Image-Pro	4.51

这里要诚实一点：8B 版在 ImgEdit Overall 上并没有全面压过 GPT Image 2，甚至低于 Qwen-Image-Edit 的一些细项。但 Pro 版显著拉回来，尤其在 Extract、Remove 这类更难编辑子项上提升明显。这反过来说明统一架构路线是成立的，但许多编辑能力仍依赖更大规模和更细后训练才能释放。

SOTA 对照矩阵

方法	架构特点	参数量	强项	弱项
FLUX.2 [Dev]	大型模块化生成系统	24B + 32B	泛化强，成熟度高	长文本和统一多任务不是最极致
Qwen-Image	7B + 20B	中文生态强、综合均衡	仍带分裂式模块痕迹
GPT Image 2	闭源	-	编辑与人类偏好稳定	黑箱，不可复现
HiDream-O1-Image	原生统一像素空间 UiT	8B	布局、文本渲染、多任务统一	编辑全项尚未全面压闭源
HiDream-O1-Image-Pro	同架构放大到 200B+	200B+	多数文本/对齐 benchmark 登顶	成本极高、复现门槛极高

复现评估

维度	评分(1-5)	详细说明
数据可得性	⭐⭐	论文详细讲了采集、去重、质量与安全过滤，但没有开放完整训练数据。
代码可得性	⭐⭐⭐⭐	GitHub 已开，README 很完整，推理脚本、prompt agent、Web demo 都给了。
算力需求	⭐	8B 推理还能摸，200B+ 训练与部署基本是大厂级别。
工程复杂度	⭐⭐	统一架构很优雅，但像素空间 + 混合注意力 + 多阶段训练的工程门槛很高。
预期收益	⭐⭐⭐⭐	如果你做的是高文本可控生成、海报、多区域文字、复杂编辑，路线非常值得跟。

复现建议： 最现实的路径不是想复刻 200B+，而是先从开源 8B / Dev 版出发，重点验证三件事：

统一 token 空间是否真的在中文长文本和版式任务上比现有开源路线稳；
Prompt Agent 对复杂需求解析到底贡献多大；
pixel-space 路线在速度、显存和输出质量上的真实 trade-off 是否可接受。

批判性分析

局限性（论文承认的 + 我们看到的）

论文的高光很足，但有几个现实问题不能跳过。

第一，HiDream 把许多结果都写得很漂亮，但对训练成本、tokens、GPU 小时、总算力消耗没有给出足够细的量化口径。对一篇强调“200B+ 可扩展性”的工作来说，这个缺口很大。因为对行业最关键的问题其实是：这个统一路线究竟是“能做出来”，还是“单位成本也划算”。

第二，Prompt Agent 贡献和 backbone 贡献还没有被彻底拆开。论文多次强调 reasoning-driven prompt refinement 很重要，但公开结果里没有足够强的独立消融，告诉我们“去掉 Prompt Agent 会掉多少”“只换统一架构不换前端 agent 会怎样”。这会让人怀疑一部分收益到底来自生成 backbone，还是来自输入工程强化。

第三，8B 版虽然在文本生成和对齐上很亮眼，但在某些编辑 benchmark 上并没有形成全面碾压。这意味着“统一一切”的代价是某些子任务未必天然最优，后训练和专门化数据仍然重要。

第四，200B+ Pro 的 SOTA 叙事很强，但真正落地还取决于推理成本、吞吐和部署工具链。今天它更像一个方向性证明：Unified Transformer 可以放大到这个规模，而不是说明整个市场会马上跟进这条路线。

改进方向

做更干净的消融： 把 Prompt Agent、pixel-space、hybrid attention、GRPO 奖励拆开，分别量化贡献。
补齐成本口径： 给出训练 GPU 小时、推理延迟、显存曲线、不同步数质量曲线，这会比单纯 benchmark 更能说服产业侧。
做更广的真实任务评测： 比如电商海报、UI mockup、故事板、多语种教材图，这些场景比通用 benchmark 更能证明统一路线的商业价值。

独立观察

这篇工作和“LLM 一统多模态”的大趋势是同一方向，只不过它把落点放在图像生成，而不是视频理解或 omni chat。
它特别值得中国团队关注，因为中文长文本渲染、海报、PPT、营销物料、本地化电商图，恰好是最讨厌 VAE 压缩和模块断裂的场景。
从 README 看，团队非常强调 Prompt Agent，这说明图像模型竞争已经不再只是 backbone 竞赛，而是“前端规划 + 后端生成”的系统工程竞赛。

对领域的影响

短期看，HiDream 会逼开源文生图社区重新认真讨论一件事：VAE + 外挂 text encoder 这套经典管线是不是已经接近天花板，尤其是在复杂文本、多区域布局、长文本渲染和统一编辑任务上。

中期看，如果更多结果验证它的单位成本并不过分夸张，那么“像素空间统一 Transformer”会成为一条真正可竞争的主线，而不是论文里的异端路线。尤其当 agent 先行规划、生成模型后执行的工作流成为常态时，HiDream 这种“Prompt Agent + Unified Backbone”的组合会比单纯比图像美感更有产业价值。

长期看，这条路线的真正价值不一定停在图像。它更像在试一件更大的事：把不同模态、不同任务、不同条件都拉回同一种 token 语言，让生成系统从拼装流水线重新变成一个统一智能体。如果这件事成立，它影响的不只是文生图，而是下一代多模态 foundation model 的设计哲学。

速查卡
核心 Insight
为什么这个想法可能 work？
方法详解
整体架构
关键技术组件
训练策略
与现有方法的关键区别
实验结果
主实验：文本生成与复杂对齐
长文本与多区域文本渲染
图像编辑与个性化
SOTA 对照矩阵
复现评估
批判性分析
局限性（论文承认的 + 我们看到的）
改进方向
独立观察
对领域的影响