News

Accelerating Gemma 4: faster inference with multi-token prediction drafters

原文链接：https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/ 前情解读：/ai-research/news/2026-04-03/deep-gemma-4/ 来源：Google 发布日期：2026-05-05

速查卡

项目	内容
一句话总结	Google 给 Gemma 4 补上 MTP drafter，把“开源模型够聪明”进一步推进到“开源模型还能更快跑”。
大白话版	以前大模型每次只吐一个 token，慢在搬参数；Google 现在加了个小草稿员，先猜几步，再让大模型并行验收，所以能在不掉质量的前提下提速。
核心要点	• 官方称最高可达 3x speedup • 目标是减轻 memory-bandwidth bottleneck • drafter 复用 target activations 与 KV cache • Apple Silicon / A100 上批处理可再拿到约 2.2x 本地增益
价值评级	A- — 这是 Gemma 4 之后最重要的工程后续，不是新模型，但极大影响开源模型可部署性。
适用场景	本地 coding assistant、agent workflow、边缘设备、消费级 GPU 推理、需要低时延的交互系统。

文章背景

Google 在 4 月发 Gemma 4 时，主叙事是 intelligence-per-parameter。那一轮回答的是“同样参数，能不能更聪明”。

这篇 5 月新文回答的是另一个现实问题：

即便模型够聪明，如果推理慢、显存带宽吃不消、消费级设备体验差，开发者还是不会真拿它做默认工作马。

所以这篇文章本质上是 Gemma 4 的“部署后半场”。它不是在卷 benchmark，而是在卷 inference systems。

完整内容还原

1. Google 发了什么

原文核心发布很简单：

给 Gemma 4 family 发布 Multi-Token Prediction (MTP) drafters
官方说通过 specialized speculative decoding architecture，可实现 最高 3x speedup
同时强调 without any degradation in output quality or reasoning logic

也就是说，Google 想卖的不是“便宜一点的草稿模型”，而是“在不牺牲最终答案的前提下，用小模型把大模型的时间浪费削掉”。

2. Google 对瓶颈的判断：不是算不动，而是搬不动

原文最关键的一句是：standard LLM inference is memory-bandwidth bound。

也就是推理慢的主要原因，不是 ALU 不够算，而是：

每生成一个 token
都要把几十亿参数从 VRAM 搬到 compute units
导致 compute 大量闲置
尤其在 consumer-grade hardware 上高延迟更明显

这和很多开发者的直觉不一样。很多人以为模型慢是“模型太大”，Google 这里更具体：慢在数据搬运成本，而不是纯算术复杂度。

3. speculative decoding 到底怎么工作

原文的描述可以简化成两层角色：

target model：真正负责最终正确性的重模型，比如 Gemma 4 31B
drafter / MTP model：轻量草稿模型，先猜未来几个 token

流程是：

drafter 先一次预测多个 future tokens
target model 并行验证这些候选 token
如果 target 同意，就整串一起接受
并且 target 还能顺手再多生成一个 token

于是单次 forward pass 不再只产出 1 个 token，而可能产出：

一整段被接受的 draft sequence
再加 target 自己多给的 1 个 token

这就是为什么吞吐能显著拉升。

4. Google 用的不是普通 speculative decoding，而是 MTP drafter

原文把这个技术归到 MTP（Multi-Token Prediction）drafters。要点不是“用个小模型猜”，而是“这个小模型专门为了多 token 草拟与快速验证配合而设计”。

Google 特别提到几个架构增强：

draft models 利用 target model activations
share target 的 KV cache
对 E2B / E4B edge models，因 final logit calculation 是瓶颈，做了 efficient clustering technique in the embedder

这三点的含义分别是：

drafter 不用从零理解上下文；
已经算过的历史上下文不重复算；
小边缘模型连最后 logits 计算都继续优化，而不是只盯主干网络。

核心技术洞察

1. 为什么共享 KV cache 很重要

自回归推理里，历史 token 的 key/value cache 是最值钱的中间状态之一。

如果 drafter 另起炉灶，每次都重算上下文，它的加速价值会被自己吃掉。Google 这次强调 share its KV cache，本质上是在避免 speculative decoding 变成“两套模型重复干同一份活”。

2. 这是从“模型优化”转向“控制流优化”

MTP 并没有改 Gemma 4 的基础智能，而是在改：

token 生成节奏
草拟与验证分工
cache 复用
批处理策略
硬件感知调度

这说明开源模型竞争正在进入系统工程阶段。下一轮胜负可能不再只看模型卡，而要看：谁把 serving path 打磨得更细。

3. 为什么这对 agent 特别重要

原文直接点名：

coding assistants
autonomous agents requiring rapid multi-step planning
responsive mobile applications running on-device

agent 比单轮聊天更吃延迟，因为它要连续做：

规划
工具调用
观察结果
再规划

如果每一步都慢，用户体感会指数变差。所以推理提速对 agent 的边际价值，比对一次性问答更大。

文章中给出的工程细节

1. 设备与软件栈

原文说 speedup 测试覆盖：

LiteRT-LM
MLX
Hugging Face Transformers
vLLM

还在文末给出可以直接上手的平台：

Hugging Face
Kaggle
MLX
vLLM
SGLang
Ollama
Google AI Edge Gallery（Android / iOS）

这说明 Google 明显在推动 day-1 ecosystem adoption，而不是只给实验代码。

2. 本地与边缘场景

原文提到几类典型收益：

Improved responsiveness：更适合 near real-time chat、voice、agentic workflows
Supercharged local development：26B MoE / 31B Dense 在个人电脑和消费级 GPU 上更实用
Enhanced on-device performance：E2B / E4B 输出更快，也间接更省电
Zero quality degradation：最终质量仍由主模型兜底

3. 硬件特定观察

这部分虽然短，但很关键。

Google 特别说：

26B MoE 在 Apple Silicon 上，batch size = 1 时有 routing challenges
但把 batch 调到 4–8，本地可获得 约 2.2x speedup
在 NVIDIA A100 上提升 batch size 也能看到类似收益

这说明 Gemma 4 MTP 并不是“固定条件下永远 3x”，而是强依赖：

模型结构（Dense vs MoE）
硬件平台
batch size
runtime 实现

横向对比

维度	4 月 Gemma 4 主发布	5 月 MTP 后续
核心问题	同样参数能否更强	同样质量能否更快
主战场	能力密度、许可证、生态	latency、throughput、serving efficiency
主要卖点	Apache 2.0 + 31B/26B/E4B/E2B 家族	up to 3x speedup + no quality degradation
关注对象	模型使用者与微调生态	部署者、框架维护者、本地推理用户
本质	模型层升级	推理系统层升级

批判性分析

局限性

官方没有在正文里给出完整、分设备、分 batch 的细表，更多是方向性结论和案例。
“up to 3x” 是上限值，不是普遍值。实际收益显然依赖硬件、模型尺寸、batch 与 runtime。
质量不降的说法更多来自 target verification 逻辑，但不同任务上的 acceptance pattern、延迟波动与尾部行为仍需社区独立验证。
26B MoE 在 Apple Silicon 上 batch=1 有 routing challenge，说明并不是所有本地单请求场景都会自然吃满收益。

独立观察

Google 正在把 Gemma 4 从“能跑的开源模型”往“值得拿来当默认本地工作模型”推进。
MTP drafter 的真正价值不只是 TPS 更高，而是让 26B/31B 这种体量在个人工作站上更像一个可以忍受的日常工具。
这也是开源模型和闭源 API 的一个新分水岭：闭源模型拼在线效果，开源模型开始拼谁能把本地、离线、边缘部署体验做到更顺手。

对领域的影响

短期内，Gemma 4 的竞争不再只是对标其他开源权重，而是会逼着更多模型提供：

官方 speculative decoding 支持
KV cache 共享优化
runtime 级 best practices
面向 Apple Silicon / 消费级 GPU / edge 的具体调优指南

换句话说，Google 现在不只是发模型，而是在教开发者如何把模型真正跑快。