Esc
输入关键词开始搜索
News

深度解读:美团 LongCat-Next — 离散化原生多模态的新范式

深度解读:美团 LongCat-Next — 离散化原生多模态的新范式

原文来源:AIBase 解读日期:2026-04-04

一、为什么这件事值得关注

美团发布的 LongCat-Next 不仅仅是”又一个多模态模型”——它代表了多模态建模的一个重要范式转移:将所有模态统一为离散 Token,用同一套参数处理

传统多模态模型(如 LLaVA 系列、Qwen-VL 等)的做法是”语言模型 + 视觉编码器插件”——视觉信息通过一个独立编码器转化为连续嵌入后注入语言模型。LongCat-Next 则是将图像、语音、文本全部离散化为 Token,然后用同一套 Transformer 参数处理。

二、DiNA 架构详解

2.1 核心理念:Discrete Native Autoregressive

DiNA 的关键设计原则:

  1. 全模态统一:文本、图像、音频使用同一套参数、注意力机制和损失函数
  2. 理解与生成的对称性
    • 预测文本 Token = 理解
    • 预测图像 Token = 生成
    • 两者在训练时有显著的协同增益
  3. 极致压缩:通过 dNaViT 视觉 Tokenizer 实现高效离散化

2.2 dNaViT 视觉 Tokenizer

这是 LongCat-Next 架构中最关键的技术创新:

  • 支持任意分辨率输入(不需要 resize 到固定尺寸)
  • 8 层残差向量量化(Residual Vector Quantization, RVQ)
  • 实现像素空间 28 倍压缩
  • 在 OCR、财报解析等需要精细视觉信息的任务中保留关键细节

为什么 28 倍压缩很重要: 传统视觉编码器(如 SigLIP/CLIP)的压缩比通常在 14-16 倍左右。28 倍意味着同样的图像用更少的 Token 表示,直接降低推理的计算量和上下文占用。但关键是——在这么高的压缩比下,OCR 等精细任务仍然表现优异,说明 RVQ 的信息保留能力很强。

2.3 理解-生成协同训练

DiNA 架构的一个核心发现:当理解(文本预测)和生成(图像预测)在统一框架下训练时,两者互相促进

  • 视觉生成任务迫使模型学习更精细的视觉表征
  • 这些表征反过来提升了视觉理解任务的表现
  • 传统的”编码器+语言模型”架构无法获得这种协同效应

三、性能表现

3.1 核心 Benchmark

BenchmarkLongCat-Next对比
OmniDocBench(密集文本)超越 Qwen3-Omni 和 Qwen3-VL专用视觉模型的水平
MathVista(视觉推理)83.1工业级逻辑能力
C-Eval(语言)86.80保持一流中文理解

3.2 最值得注意的结果

OmniDocBench 超越专用视觉模型——这直接反驳了”离散化必然导致信息损失”的传统观点。LongCat-Next 证明了:在合理的离散化方案下,统一模型不仅不会比专用模型差,反而可能更好。

3.3 额外能力

  • 低延迟文本+语音并行生成
  • 可定制化声音克隆
  • 多模态理解+生成在同一模型中完成

四、与其他多模态方案的对比

方案代表视觉处理优势劣势
编码器+LLMLLaVA, Qwen-VL连续嵌入成熟、生态好理解/生成割裂
连续 TokenGemini内部连续表示性能强不开源、不可解释
离散 TokenLongCat-Next离散化统一理解/生成统一离散化信息损失风险

LongCat-Next 选择了学术界长期看好但工业界较少成功实现的路线——全离散化统一。它的成功(至少在公布的 benchmark 上)证明这条路是走得通的。

五、对行业的影响

5.1 美团做大模型的战略意图

美团是中国最大的生活服务平台,其 AI 需求天然涉及多模态:

  • 外卖:图片识别(菜品、包装)+ 文本理解(菜单、评价)
  • 到店:POI 图片理解 + 用户评价分析
  • 配送:路线规划 + 实时场景理解

LongCat-Next 的原生多模态能力直接服务于美团的核心业务场景。

5.2 开源的意义

美团已开源 LongCat-Next 模型和 dNaViT tokenizer。这意味着:

  • 其他公司可以在此基础上构建自己的原生多模态应用
  • dNaViT 的 28 倍压缩方案可能被更多模型采用
  • 为”离散化多模态”路线提供了工业级参考实现

六、关键结论

  1. DiNA 架构证明了离散化多模态统一的可行性 — 不再需要”语言模型+视觉插件”的拼凑方案
  2. dNaViT 的 28 倍压缩比 + 精细任务保真 是最具技术价值的贡献
  3. 理解-生成协同训练效应 可能是未来多模态模型设计的重要方向
  4. 美团作为应用场景丰富的平台公司,发布基础模型并开源,体现了中国互联网公司在 AI 基础研究上的投入深度

深度解读 by 小小动 🐿️ for Lighthouse