MiniCPM-V 4.5 深度解读
MiniCPM-V 4.5 深度解读
原文链接:https://huggingface.co/openbmb/MiniCPM-V-4_5 技术报告:MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data and Training Recipes 来源:OpenBMB / MiniCPM-V Team 发布日期:2026-04-28(技术报告公开传播窗口) 核对说明:已通读本轮落库保存的技术报告全文,并据正文实验表整理本文;未引用报告外未给出的数值。
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | MiniCPM-V 4.5 的核心不是再堆参数,而是把多模态效率问题拆成视觉 token 压缩、文档学习范式、推理模式控制三层一起优化。 |
| 大白话版 | 别再让模型用一大坨图像/视频 token 硬吃显存,也别再靠脆弱 parser 先把 PDF 拆碎;直接把视觉编码压缩掉,把 OCR 和文档知识一起学,再让模型既会短答也会长想。 |
| 核心数字 | 8B 参数;6 秒 2fps 448×448 视频可压到 128 visual tokens;3D-Resampler 下 6 帧可联合压到 64 token、报告称视频 token 压缩率可达 96×;VideoMME 上仅用 Qwen2.5-VL 7B 46.7% 显存和 8.7% 推理时间。 |
| 评级 | A — 不是绝对能力革命,但它把“高性能 MLLM 必然昂贵”这个前提拆得很干净。 |
| 代码 | 模型与代码均已公开 |
| 关键词 | MLLM efficiency, 3D-Resampler, document OCR, hybrid RL, short reasoning, long reasoning, VideoMME, OpenCompass |
核心 Insight
MiniCPM-V 4.5 最值得记住的 insight 是:多模态模型的效率问题并不是单点瓶颈,而是三种成本同时失控。
第一层是视觉 token 太多。传统 MLLM 为了吃高分辨率图像和视频,往往把 encoder 输出的大量 patch token 直接喂给 LLM,结果训练和推理都被上下文长度拖死。第二层是文档训练太依赖外部解析器。论文明确指出,科学论文、教材、复杂 PDF 的真实价值恰恰在混排结构里,但 parser 一旦失败,知识学习和 OCR 都会被错误中间表示污染。第三层是 reasoning mode 单一化。只练长推理模式虽然能刷复杂题,但会把简单任务也拖成长篇大论,训练和推理两头都浪费。
MiniCPM-V 4.5 的思路是把这三层一起改:用 3D-Resampler 压缩 image/video token,用动态视觉扰动把 OCR 与 document knowledge learning 融成同一个学习目标,再用 hybrid RL 同时训练 short reasoning 和 long reasoning。也就是说,它不接受“更强多模态 = 更大更慢”这个默认设定,而是试图把效率本身做成模型竞争力。
方法详解
整体架构
报告把系统分成三块:
输入图像/视频 → 轻量视觉编码器 → Unified 3D-Resampler → LLM Decoder → 短推理/长推理输出
其中最关键的是中间这个 Unified 3D-Resampler。它不是只对静态图像做 2D 压缩,而是把视频里的时空冗余一起压掉,让 image 和 video 共用一套统一视觉编码通道。
组件 1:Unified 3D-Resampler
做什么: 把高分辨率图片和长视频压成紧凑得多的视觉 token 序列。
怎么做:
- 对图片:沿用 image partitioning,把不同长宽比图片切成多个 slice,再用带 2D 位置编码的 learnable queries 做 cross-attention,生成固定长度表示。
- 对视频:先按时间维度把相邻帧打包成 package,再用同时带 2D 空间位置编码和 temporal 位置编码的 learnable queries 对整包帧特征做联合重采样。
- 对统一训练:同一套 3D-Resampler 同时服务 image/video,因此 image 的知识也更容易迁移到 video。
关键数字:
- 448×448 图片可压到 64 visual tokens;
- 6 秒、2fps、448×448 视频可压到 128 visual tokens;
- 报告给出的极限表述是 6 帧 448×448 视频联合压到 64 token,相比多数 MLLM 常见的 1536–3072 token,视频 token 压缩率可达 96×;
- 相比旧 2D-Resampler,视频方向额外得到 6× temporal compression。
为什么这个设计 work: 视频最浪费的不是“信息不够”,而是“重复信息太多”。连续帧里背景、主体结构、文档页面布局往往大量重复。3D-Resampler 等于承认视频不是静态图片的简单拼接,而是可以先在时空联合空间里做一次稀疏化,再交给 LLM 做语言推理。
组件 2:文档知识与 OCR 的统一学习范式
做什么: 不再依赖脆弱外部 parser 去把 PDF/文档切成 image-text pair,而是让模型直接从文档图像里学会 OCR 与知识抽取。
怎么做:
- 选取文档中的文本区域作为训练目标;
- 对这些区域随机施加不同强度的 corruption;
- 低扰动时,任务更像 OCR;
- 中扰动时,需要结合视觉线索与上下文恢复;
- 高扰动时,模型必须依赖文档上下文和知识推断补全文本。
报告明确把这套方案总结为:用 dynamic visual corruption 建一个从 OCR 到 contextual reasoning 的连续谱,而不是把 OCR、parser、document QA 分成完全割裂的流水线。
为什么这点重要: 很多文档 MLLM 的真实问题不是模型不会读,而是训练样本先被 parser 弄坏了。MiniCPM-V 4.5 的方案等于把“先解析再学习”改成“直接从原始文档视觉面学习”,减少 brittle preprocessing 对上游能力的限制。
组件 3:Hybrid RL,同步支持 short reasoning 与 long reasoning
做什么: 让模型既能在简单题上快速输出,也能在复杂题上展开显式长推理。
怎么做:
- RL rollout 时随机交替 short reasoning 与 long reasoning 两种模式;
- 对短答案倾向用规则验证,报告称简单短答案验证准确率可达 98%;
- 对复杂自然语言答案用 reward model,但只给 final answer 打分,不惩罚中间 think token;
- 这样既保证复杂 reasoning 的梯度信号,又避免“每题都说太多”。
关键数字:
- 报告称 hybrid post-training 只用 long-reasoning-only 策略 70.5% 的训练 token 成本,就取得更好综合表现;
- 在 OpenCompass 综合评测上,short/long 双模式能力都能提升,同时推理时间仅为并发 thinking baseline 的 42.9%–68.2%。
训练策略
报告把训练拆成 progressive multi-stage pipeline:
- 早期阶段冻结 LLM,强化视觉侧和 OCR-rich data;
- 中期开始引入 image-text interleaving、videos 和更高质量指令数据;
- 视觉与语言逐步解冻,配合 Warmup-Stable-Decay 学习率调度;
- 后训练阶段再上 hybrid RL,分别处理效率型短答和复杂长推理。
值得注意的是,作者强调统一 resampler 也让 2D→3D 扩展可以通过较轻量 SFT 完成,而不是整套重训,这对后续模型族演进很有工程意义。
实验结果
主实验
| 方法 | 参数规模 | OpenCompass | MMMU | MathVista | OCRBench | VideoMME 结论 |
|---|---|---|---|---|---|---|
| Qwen2.5-VL 7B | 7B | 70.5 | 58.6 | 68.2 | 86.4 | 作为主要效率对比基线 |
| Qwen2.5-VL 72B | 72B | 76.1 | 68.2 | 74.2 | 88.2 | 大模型强基线 |
| InternVL3 | 8B | 73.6 | 62.7 | 71.6 | - | 同尺寸开源基线 |
| GLM-4.1V | 9B | 76.6 | 68.0 | 80.7 | - | thinking 型同代基线 |
| GPT-4o-latest | proprietary | 75.4 | 72.9 | 71.6 | - | 闭源参考 |
| MiniCPM-V 4.5 | 8B | 77.0 | 67.7 | 79.9 | 89.0 | 30B 以下 SOTA;同等表现下仅需 Qwen2.5-VL 7B 的 46.7% 显存与 8.7% 推理时间 |
解读:
- 最硬的不是单个榜单第一,而是 8B 体量在 OpenCompass 上压过 GPT-4o-latest 与 Qwen2.5-VL 72B。
- 在 OCRBench 上到 89.0,说明它的 document/OCR 统一训练不是口号。
- 在 MathVista 上 79.9,接近 GLM-4.1V 的 80.7,说明“效率路线”没有明显牺牲复杂多模态推理。
- 真正的王牌是 VideoMME 方向的效率-性能比:同等视频理解表现下,推理时间缩到先前强基线的 9.9%。
关键消融与机制验证
| 模块 | 论文主张 | 作用 |
|---|---|---|
| 3D-Resampler | 时空联合压缩优于简单 2D 图像压缩外推到视频 | 让长视频/高帧率输入首次真正进入低成本区间 |
| 动态视觉扰动 | 把 OCR 与 document knowledge learning 合流 | 减少 parser 依赖,降低复杂布局文档的数据工程成本 |
| Hybrid RL | short/long 模式联合训练优于只练长推理 | 把复杂任务能力留下来,同时抑制简单任务 verbosity |
与现有方法的关键区别
| 维度 | 常见多模态模型 | MiniCPM-V 4.5 | 为什么更好 |
|---|---|---|---|
| 视频编码 | 帧 token 很长,主要靠更大显存硬扛 | 3D-Resampler 做时空联合压缩 | 先减少无效冗余,再谈理解 |
| 文档学习 | 依赖 parser 转成 interleaved data | 直接从文档图像学 OCR + 知识 | 避免 parser 误差污染训练 |
| 推理模式 | 非想即想,要么全短要么全长 | short/long 双模式联合优化 | 不让简单题为复杂题买单 |
复现评估
| 维度 | 评分(1-5) | 详细说明 |
|---|---|---|
| 数据可得性 | ⭐⭐⭐ | 模型与报告公开,但完整训练数据未完全开源,尤其文档/OCR构造细节仍有门槛。 |
| 代码可得性 | ⭐⭐⭐⭐ | 模型、代码、Hugging Face 权重都在,有较强落地可行性。 |
| 算力需求 | ⭐⭐⭐⭐ | 8B 体量本身友好,单机部署门槛明显低于多数同代 MLLM;但完整训练/后训练仍非个人级。 |
| 工程复杂度 | ⭐⭐⭐ | resampler、文档训练、hybrid RL 都有实现复杂度,但方向明确。 |
| 预期收益 | ⭐⭐⭐⭐⭐ | 对任何想做 video/document MLLM 且不想被成本拖死的团队都很有启发。 |
批判性分析
论文承认与隐含局限
- 它主要证明“效率不掉太多能力”,但未完全回答超长视频、复杂交互式 agent 场景下的稳定性边界。
- 统一 OCR/document 范式很漂亮,但如果真实企业 PDF 含有更重扫描噪声、表格旋转、手写混排,效果还需要更多外部验证。
- Hybrid RL 的核心收益来自模式切换与 selective reward;但这也意味着 reward 设计质量对最终体验影响很大,泛化到别家模型未必即插即用。
我们的独立观察
- MiniCPM-V 4.5 的真正价值,在于它把“便宜模型也能打多模态”从部署口号推进到训练方法论。
- 这套路线对端侧/消费级 GPU 尤其重要,因为它瞄准的不是单次 benchmark 冠军,而是总拥有成本。
- 如果后续 MiniCPM 团队能把这套 3D-Resampler 思路迁到更强 agentic multimodal setting,它会比单纯刷图文榜更有产业穿透力。
对领域的影响
这篇报告不会像新架构那样马上改写研究方向,但它会持续影响“下一代开源 MLLM 应该把钱花在哪”。过去很多团队默认先冲更大的 vision encoder、更长上下文、更复杂 parser。MiniCPM-V 4.5 给出的答案相反:先压 token、先修文档学习路径、先让推理模式可控。对开源多模态生态来说,这是一条更务实、也更容易规模化扩散的路线。