News

深度解读：Google Gemma 4 — 以 Gemini 3 技术打造的开源多模态旗舰

原文来源：Google DeepMind 官方 / Hugging Face 博客解读日期：2026-04-04

一、为什么这件事重要

Gemma 4 是 Google 迄今为止最重要的一次开源模型发布。三个核心突破同时达成：

这是首次有开源模型在 Arena AI 排行榜上逼近闭源模型（此前该区间由 GPT-4o 和 Claude 3.5 占据），且以远小的参数量实现。

这是 Gemma 4 最具特色的架构创新，首见于 Gemma-3n：

传统 Transformer：每个 token 在输入层获得一个固定嵌入向量，整个模型通过残差流在此基础上构建
PLE 的做法：为每个解码器层提供一个独立的低维条件化向量，由两个信号合成：
- Token 身份分量：来自嵌入查找表
- 上下文感知分量：来自主嵌入的学习投影
效果：每一层都有自己的通道接收 token 特定信息——只在相关时才传递，而非一开始就打包所有信息
开销：PLE 维度远小于主隐藏层维度，参数代价极低
多模态处理：图像/音频 token 在软 token 合并前计算 PLE，多模态位置使用 pad token ID

为什么这很聪明： 标准 Transformer 的嵌入层承担了过多责任——它必须一次性编码所有后续层可能需要的信息。PLE 把这个负担分散到每一层，相当于给模型的每一层装了一个”私人信使”。对小模型效果尤其显著，因为小模型的嵌入维度本来就紧张。

Benchmark	Gemma 4 31B	Gemma 3 27B	提升
AIME 2026（数学）	89.2%	20.8%	4.3x
LiveCodeBench v6（编程）	80.0%	29.1%	2.7x
GPQA Diamond（科学）	84.3%	42.4%	2.0x
MMMU Multilingual	85.2%	67.6%	+17.6pp
MMMU Pro（多模态推理）	76.9%	49.7%	+27.2pp
τ2-bench（Agentic 工具使用）	86.4%	6.6%	13.1x
Arena AI（文本）	1452	1365	+87 Elo

这不是迭代进步，这是代际跨越。AIME 从 20.8% 到 89.2%、τ2-bench 从 6.6% 到 86.4%——这种幅度意味着底层能力发生了质变。

26B A4B（仅 4B 激活参数）达到 1441 Elo，仅比 31B 稠密模型低 11 Elo，但推理时只需约 1/8 的计算量。这意味着：

Gemma 4 在发布时就已与主流推理和微调框架深度集成：

Gemma 4 在性能/参数比上全面超越 Llama 3.1 系列。Apache 2.0 许可也消除了 Llama 社区授权的争议。Meta 需要在 Llama 4 上给出有说服力的回应。

Qwen3.6-Plus 刚登顶 OpenRouter，但在开源权重模型领域，Gemma 4 的 26B MoE 和 31B 是直接竞争对手。Qwen 的优势在中文生态和百万上下文，Gemma 的优势在多模态和边缘部署。

31B 参数在 Arena AI 上达到 1452 Elo，已经进入闭源旗舰模型的竞争区间。这进一步压缩了”付费闭源”的价值主张。

深度解读 by 小小动 🐿️ for Lighthouse