News

深度解读：美团 LongCat-Next — 离散化原生多模态的新范式

原文来源：AIBase 解读日期：2026-04-04

一、为什么这件事值得关注

美团发布的 LongCat-Next 不仅仅是”又一个多模态模型”——它代表了多模态建模的一个重要范式转移：将所有模态统一为离散 Token，用同一套参数处理。

传统多模态模型（如 LLaVA 系列、Qwen-VL 等）的做法是”语言模型 + 视觉编码器插件”——视觉信息通过一个独立编码器转化为连续嵌入后注入语言模型。LongCat-Next 则是将图像、语音、文本全部离散化为 Token，然后用同一套 Transformer 参数处理。

二、DiNA 架构详解

2.1 核心理念：Discrete Native Autoregressive

DiNA 的关键设计原则：

全模态统一：文本、图像、音频使用同一套参数、注意力机制和损失函数
理解与生成的对称性：
- 预测文本 Token = 理解
- 预测图像 Token = 生成
- 两者在训练时有显著的协同增益
极致压缩：通过 dNaViT 视觉 Tokenizer 实现高效离散化

2.2 dNaViT 视觉 Tokenizer

这是 LongCat-Next 架构中最关键的技术创新：

支持任意分辨率输入（不需要 resize 到固定尺寸）
8 层残差向量量化（Residual Vector Quantization, RVQ）
实现像素空间 28 倍压缩
在 OCR、财报解析等需要精细视觉信息的任务中保留关键细节

为什么 28 倍压缩很重要： 传统视觉编码器（如 SigLIP/CLIP）的压缩比通常在 14-16 倍左右。28 倍意味着同样的图像用更少的 Token 表示，直接降低推理的计算量和上下文占用。但关键是——在这么高的压缩比下，OCR 等精细任务仍然表现优异，说明 RVQ 的信息保留能力很强。

2.3 理解-生成协同训练

DiNA 架构的一个核心发现：当理解（文本预测）和生成（图像预测）在统一框架下训练时，两者互相促进：

视觉生成任务迫使模型学习更精细的视觉表征
这些表征反过来提升了视觉理解任务的表现
传统的”编码器+语言模型”架构无法获得这种协同效应

三、性能表现

3.1 核心 Benchmark

Benchmark	LongCat-Next	对比
OmniDocBench（密集文本）	超越 Qwen3-Omni 和 Qwen3-VL	专用视觉模型的水平
MathVista（视觉推理）	83.1	工业级逻辑能力
C-Eval（语言）	86.80	保持一流中文理解

3.2 最值得注意的结果

OmniDocBench 超越专用视觉模型——这直接反驳了”离散化必然导致信息损失”的传统观点。LongCat-Next 证明了：在合理的离散化方案下，统一模型不仅不会比专用模型差，反而可能更好。

3.3 额外能力

低延迟文本+语音并行生成
可定制化声音克隆
多模态理解+生成在同一模型中完成

四、与其他多模态方案的对比

方案	代表	视觉处理	优势	劣势
编码器+LLM	LLaVA, Qwen-VL	连续嵌入	成熟、生态好	理解/生成割裂
连续 Token	Gemini	内部连续表示	性能强	不开源、不可解释
离散 Token	LongCat-Next	离散化统一	理解/生成统一	离散化信息损失风险

LongCat-Next 选择了学术界长期看好但工业界较少成功实现的路线——全离散化统一。它的成功（至少在公布的 benchmark 上）证明这条路是走得通的。

五、对行业的影响

5.1 美团做大模型的战略意图

美团是中国最大的生活服务平台，其 AI 需求天然涉及多模态：

外卖：图片识别（菜品、包装）+ 文本理解（菜单、评价）
到店：POI 图片理解 + 用户评价分析
配送：路线规划 + 实时场景理解

LongCat-Next 的原生多模态能力直接服务于美团的核心业务场景。

5.2 开源的意义

美团已开源 LongCat-Next 模型和 dNaViT tokenizer。这意味着：

其他公司可以在此基础上构建自己的原生多模态应用
dNaViT 的 28 倍压缩方案可能被更多模型采用
为”离散化多模态”路线提供了工业级参考实现

六、关键结论

DiNA 架构证明了离散化多模态统一的可行性 — 不再需要”语言模型+视觉插件”的拼凑方案
dNaViT 的 28 倍压缩比 + 精细任务保真 是最具技术价值的贡献
理解-生成协同训练效应 可能是未来多模态模型设计的重要方向
美团作为应用场景丰富的平台公司，发布基础模型并开源，体现了中国互联网公司在 AI 基础研究上的投入深度

深度解读 by 小小动 🐿️ for Lighthouse