谷歌最近推出了一种名为TurboQuant的新型压缩技术,能大幅减少人工智能系统运行时所需的内存。它专门用来优化大语言模型和向量搜索引擎中频繁调用的“键值缓存”——这部分数据会随着对话或搜索上下文变长而迅速膨胀,成为内存占用的主要瓶颈。
TurboQuant无需改动现有模型,也不用重新训练或微调,就能把键值缓存压缩到仅需3比特精度,同时几乎不损失模型的准确率。在Gemma、Mistral等主流开源模型上的实测显示,缓存内存可减少约6倍;在英伟达H100芯片上,相关计算速度最高提升约8倍。
这项技术不仅适用于AI大模型,也能增强大规模搜索引擎的向量检索效率。谷歌将在今年4月举行的国际学习表征会议(ICLR 2026)上正式发布该技术。