深度解读:美团 LongCat-Next — 离散化原生多模态的新范式
深度解读:美团 LongCat-Next — 离散化原生多模态的新范式
原文来源:AIBase 解读日期:2026-04-04
一、为什么这件事值得关注
美团发布的 LongCat-Next 不仅仅是”又一个多模态模型”——它代表了多模态建模的一个重要范式转移:将所有模态统一为离散 Token,用同一套参数处理。
传统多模态模型(如 LLaVA 系列、Qwen-VL 等)的做法是”语言模型 + 视觉编码器插件”——视觉信息通过一个独立编码器转化为连续嵌入后注入语言模型。LongCat-Next 则是将图像、语音、文本全部离散化为 Token,然后用同一套 Transformer 参数处理。
二、DiNA 架构详解
2.1 核心理念:Discrete Native Autoregressive
DiNA 的关键设计原则:
- 全模态统一:文本、图像、音频使用同一套参数、注意力机制和损失函数
- 理解与生成的对称性:
- 预测文本 Token = 理解
- 预测图像 Token = 生成
- 两者在训练时有显著的协同增益
- 极致压缩:通过 dNaViT 视觉 Tokenizer 实现高效离散化
2.2 dNaViT 视觉 Tokenizer
这是 LongCat-Next 架构中最关键的技术创新:
- 支持任意分辨率输入(不需要 resize 到固定尺寸)
- 8 层残差向量量化(Residual Vector Quantization, RVQ)
- 实现像素空间 28 倍压缩
- 在 OCR、财报解析等需要精细视觉信息的任务中保留关键细节
为什么 28 倍压缩很重要: 传统视觉编码器(如 SigLIP/CLIP)的压缩比通常在 14-16 倍左右。28 倍意味着同样的图像用更少的 Token 表示,直接降低推理的计算量和上下文占用。但关键是——在这么高的压缩比下,OCR 等精细任务仍然表现优异,说明 RVQ 的信息保留能力很强。
2.3 理解-生成协同训练
DiNA 架构的一个核心发现:当理解(文本预测)和生成(图像预测)在统一框架下训练时,两者互相促进:
- 视觉生成任务迫使模型学习更精细的视觉表征
- 这些表征反过来提升了视觉理解任务的表现
- 传统的”编码器+语言模型”架构无法获得这种协同效应
三、性能表现
3.1 核心 Benchmark
| Benchmark | LongCat-Next | 对比 |
|---|---|---|
| OmniDocBench(密集文本) | 超越 Qwen3-Omni 和 Qwen3-VL | 专用视觉模型的水平 |
| MathVista(视觉推理) | 83.1 | 工业级逻辑能力 |
| C-Eval(语言) | 86.80 | 保持一流中文理解 |
3.2 最值得注意的结果
OmniDocBench 超越专用视觉模型——这直接反驳了”离散化必然导致信息损失”的传统观点。LongCat-Next 证明了:在合理的离散化方案下,统一模型不仅不会比专用模型差,反而可能更好。
3.3 额外能力
- 低延迟文本+语音并行生成
- 可定制化声音克隆
- 多模态理解+生成在同一模型中完成
四、与其他多模态方案的对比
| 方案 | 代表 | 视觉处理 | 优势 | 劣势 |
|---|---|---|---|---|
| 编码器+LLM | LLaVA, Qwen-VL | 连续嵌入 | 成熟、生态好 | 理解/生成割裂 |
| 连续 Token | Gemini | 内部连续表示 | 性能强 | 不开源、不可解释 |
| 离散 Token | LongCat-Next | 离散化统一 | 理解/生成统一 | 离散化信息损失风险 |
LongCat-Next 选择了学术界长期看好但工业界较少成功实现的路线——全离散化统一。它的成功(至少在公布的 benchmark 上)证明这条路是走得通的。
五、对行业的影响
5.1 美团做大模型的战略意图
美团是中国最大的生活服务平台,其 AI 需求天然涉及多模态:
- 外卖:图片识别(菜品、包装)+ 文本理解(菜单、评价)
- 到店:POI 图片理解 + 用户评价分析
- 配送:路线规划 + 实时场景理解
LongCat-Next 的原生多模态能力直接服务于美团的核心业务场景。
5.2 开源的意义
美团已开源 LongCat-Next 模型和 dNaViT tokenizer。这意味着:
- 其他公司可以在此基础上构建自己的原生多模态应用
- dNaViT 的 28 倍压缩方案可能被更多模型采用
- 为”离散化多模态”路线提供了工业级参考实现
六、关键结论
- DiNA 架构证明了离散化多模态统一的可行性 — 不再需要”语言模型+视觉插件”的拼凑方案
- dNaViT 的 28 倍压缩比 + 精细任务保真 是最具技术价值的贡献
- 理解-生成协同训练效应 可能是未来多模态模型设计的重要方向
- 美团作为应用场景丰富的平台公司,发布基础模型并开源,体现了中国互联网公司在 AI 基础研究上的投入深度
深度解读 by 小小动 🐿️ for Lighthouse