News

TurboQuant: Redefining AI Efficiency with Extreme Compression

原文链接：https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/ 论文：https://arxiv.org/abs/2504.19874 来源：Google Research 会议：ICLR 2026 发布日期：2026-03-26

速查卡

项目	内容
一句话总结	Google 的向量量化算法 TurboQuant 实现 KV Cache 至少 6 倍内存压缩且零精度损失
大白话版	AI 模型的”记忆笔记”（KV Cache）占了太多内存，Google 找到了一个数学方法把笔记压缩到 1/6 大小而不丢失任何信息
核心数字	≥6x KV Cache 压缩、零精度损失、3 bit 量化、H100 上注意力计算 8x 加速
评级	B — 重要进展：ICLR 2026 发表 + 对 Agent 部署有直接实用价值
代码	暂未公开
关键词	TurboQuant, PolarQuant, QJL, KV Cache 压缩, 向量量化, 推理优化

核心 Insight

TurboQuant 解决的核心问题是：传统向量量化在压缩数据时会产生额外的”量化常数”开销，每个数据块需要 1-2 bit 的额外存储来记录压缩参数，部分抵消了压缩效果。

TurboQuant 的创新在于两步流程完全消除了这个开销：

PolarQuant（主压缩）： 随机旋转数据向量 → 简化数据几何 → 用标准量化器高效压缩
QJL（残差纠错）： 仅用 1 bit 消除第一步的残差偏差

两步合在一起实现了”使用大部分比特捕获主要信息 + 仅用 1 bit 修正残差”的最优分配。

为什么 KV Cache 压缩在 Agent 时代如此重要？

36Kr 报道的”Agent 时代算力荒”核心数据：

Chatbot 时代：单次对话消耗 1,000-3,000 token
Agent 时代：单次任务消耗 10 万 - 800 万 token
KV Cache 随上下文长度线性增长

如果 TurboQuant 能将 KV Cache 压缩 6 倍：

同等硬件支持 6 倍长的上下文窗口
或支持 6 倍多的并发请求
Agent 的单次任务成本可降低约 50-80%（KV Cache 是推理内存的主要组成部分）

方法详解

PolarQuant: 用”极坐标”替代”直角坐标”

传统量化在标准坐标系（X, Y, Z 轴）中工作，需要为每个小块计算并存储归一化常数。

PolarQuant 将向量转换为极坐标：

半径（radius）： 数据的强度/大小
角度（angle）： 数据的方向/含义

关键洞察： 在极坐标下，角度分量的分布是已知且高度集中的。这意味着不需要动态计算归一化参数——数据自然映射到固定的”圆形网格”上，边界是已知的。

类比： 就像把”向东走 3 格、向北走 4 格”替换成”朝 37° 方向走 5 步”——后者不需要知道坐标系的范围就能精确描述位置。

QJL: 零开销的 1-bit 残差纠错

QJL（Quantized Johnson-Lindenstrauss）利用 Johnson-Lindenstrauss 变换将高维数据降维，同时保持数据点间的距离关系。然后将每个结果数值压缩到单个符号位（+1 或 -1）。

关键作用： 消除 PolarQuant 第一步留下的微小偏差。通过精心设计的估计器，平衡高精度查询和低精度数据之间的精度差异。

组合效果

步骤	消耗	功能
PolarQuant	主要比特预算	捕获核心信息
QJL	仅 1 bit	消除残差偏差
总和	3 bits	≥6x 压缩，零精度损失

实验结果

长上下文基准测试

在 LongBench、Needle-In-A-Haystack、ZeroSCROLLS、RULER、L-Eval 上使用 Gemma 和 Mistral 模型评估：

TurboQuant（3 bit）： 在所有基准上与无压缩的 32-bit 基线完全匹配——零精度损失
PolarQuant（单独使用）： 在 Needle-In-A-Haystack 上也接近无损
KIVI 基线： 精度损失明显高于 TurboQuant 和 PolarQuant

运行时性能

4-bit TurboQuant 在 H100 GPU 上的注意力 logits 计算速度比 32-bit 未量化键快 8 倍。

向量搜索

TurboQuant 在高维向量搜索中的 1@k recall 率一致超越 PQ 和 RabbiQ 等 SOTA 方法——尽管后者使用了更大的码本和数据集特定的调优。

批判性分析

局限性

训练时量化： TurboQuant 是推理时（training-free）的量化方法，不需要重新训练模型。但如果模型本身在训练时就考虑量化友好性，效果可能更好。
硬件依赖： 8x 加速数据来自 H100 GPU——在消费级 GPU 或其他加速器上的表现需要验证。
与其他推理优化的交互： TurboQuant 与 FlashAttention、投机解码、MoE 等其他推理优化技术的兼容性尚不清楚。

独立观察

TurboQuant 与同日发布的 MSA（Memory Sparse Attention）形成完美互补：MSA 解决了”如何高效检索相关记忆”，TurboQuant 解决了”如何压缩存储这些记忆”。两者结合可能实现”低成本 + 超长上下文 + 高精度”的三角。
Google 选择在 ICLR 2026 发表此工作，说明其理论贡献被学术界认可。三篇配套论文（TurboQuant + PolarQuant + QJL）构成了完整的向量量化理论体系。
对 Agent 时代的直接影响：如果 KV Cache 成本降低 6 倍，199 元/月的”KimiClaw 套餐”（目前是”算力排队票”）可能变成实际可用的产品。