Esc
输入关键词开始搜索
News

TurboQuant: Redefining AI Efficiency with Extreme Compression

TurboQuant: Redefining AI Efficiency with Extreme Compression

原文链接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/ 论文:https://arxiv.org/abs/2504.19874 来源:Google Research 会议:ICLR 2026 发布日期:2026-03-26

速查卡

项目内容
一句话总结Google 的向量量化算法 TurboQuant 实现 KV Cache 至少 6 倍内存压缩且零精度损失
大白话版AI 模型的”记忆笔记”(KV Cache)占了太多内存,Google 找到了一个数学方法把笔记压缩到 1/6 大小而不丢失任何信息
核心数字≥6x KV Cache 压缩、零精度损失、3 bit 量化、H100 上注意力计算 8x 加速
评级B — 重要进展:ICLR 2026 发表 + 对 Agent 部署有直接实用价值
代码暂未公开
关键词TurboQuant, PolarQuant, QJL, KV Cache 压缩, 向量量化, 推理优化

核心 Insight

TurboQuant 解决的核心问题是:传统向量量化在压缩数据时会产生额外的”量化常数”开销,每个数据块需要 1-2 bit 的额外存储来记录压缩参数,部分抵消了压缩效果。

TurboQuant 的创新在于两步流程完全消除了这个开销:

  1. PolarQuant(主压缩): 随机旋转数据向量 → 简化数据几何 → 用标准量化器高效压缩
  2. QJL(残差纠错): 仅用 1 bit 消除第一步的残差偏差

两步合在一起实现了”使用大部分比特捕获主要信息 + 仅用 1 bit 修正残差”的最优分配。

为什么 KV Cache 压缩在 Agent 时代如此重要?

36Kr 报道的”Agent 时代算力荒”核心数据:

  • Chatbot 时代:单次对话消耗 1,000-3,000 token
  • Agent 时代:单次任务消耗 10 万 - 800 万 token
  • KV Cache 随上下文长度线性增长

如果 TurboQuant 能将 KV Cache 压缩 6 倍:

  • 同等硬件支持 6 倍长的上下文窗口
  • 或支持 6 倍多的并发请求
  • Agent 的单次任务成本可降低约 50-80%(KV Cache 是推理内存的主要组成部分)

方法详解

PolarQuant: 用”极坐标”替代”直角坐标”

传统量化在标准坐标系(X, Y, Z 轴)中工作,需要为每个小块计算并存储归一化常数。

PolarQuant 将向量转换为极坐标:

  • 半径(radius): 数据的强度/大小
  • 角度(angle): 数据的方向/含义

关键洞察: 在极坐标下,角度分量的分布是已知且高度集中的。这意味着不需要动态计算归一化参数——数据自然映射到固定的”圆形网格”上,边界是已知的。

类比: 就像把”向东走 3 格、向北走 4 格”替换成”朝 37° 方向走 5 步”——后者不需要知道坐标系的范围就能精确描述位置。

QJL: 零开销的 1-bit 残差纠错

QJL(Quantized Johnson-Lindenstrauss)利用 Johnson-Lindenstrauss 变换将高维数据降维,同时保持数据点间的距离关系。然后将每个结果数值压缩到单个符号位(+1 或 -1)。

关键作用: 消除 PolarQuant 第一步留下的微小偏差。通过精心设计的估计器,平衡高精度查询和低精度数据之间的精度差异。

组合效果

步骤消耗功能
PolarQuant主要比特预算捕获核心信息
QJL仅 1 bit消除残差偏差
总和3 bits≥6x 压缩,零精度损失

实验结果

长上下文基准测试

在 LongBench、Needle-In-A-Haystack、ZeroSCROLLS、RULER、L-Eval 上使用 Gemma 和 Mistral 模型评估:

  • TurboQuant(3 bit): 在所有基准上与无压缩的 32-bit 基线完全匹配——零精度损失
  • PolarQuant(单独使用): 在 Needle-In-A-Haystack 上也接近无损
  • KIVI 基线: 精度损失明显高于 TurboQuant 和 PolarQuant

运行时性能

4-bit TurboQuant 在 H100 GPU 上的注意力 logits 计算速度比 32-bit 未量化键快 8 倍

向量搜索

TurboQuant 在高维向量搜索中的 1@k recall 率一致超越 PQ 和 RabbiQ 等 SOTA 方法——尽管后者使用了更大的码本和数据集特定的调优。

批判性分析

局限性

  1. 训练时量化: TurboQuant 是推理时(training-free)的量化方法,不需要重新训练模型。但如果模型本身在训练时就考虑量化友好性,效果可能更好。

  2. 硬件依赖: 8x 加速数据来自 H100 GPU——在消费级 GPU 或其他加速器上的表现需要验证。

  3. 与其他推理优化的交互: TurboQuant 与 FlashAttention、投机解码、MoE 等其他推理优化技术的兼容性尚不清楚。

独立观察

  • TurboQuant 与同日发布的 MSA(Memory Sparse Attention)形成完美互补:MSA 解决了”如何高效检索相关记忆”,TurboQuant 解决了”如何压缩存储这些记忆”。两者结合可能实现”低成本 + 超长上下文 + 高精度”的三角。

  • Google 选择在 ICLR 2026 发表此工作,说明其理论贡献被学术界认可。三篇配套论文(TurboQuant + PolarQuant + QJL)构成了完整的向量量化理论体系。

  • 对 Agent 时代的直接影响:如果 KV Cache 成本降低 6 倍,199 元/月的”KimiClaw 套餐”(目前是”算力排队票”)可能变成实际可用的产品。