关闭导航

包含标签"PolarQuant"的内容

谷歌TurboQuant显著压缩KV Cache,提升LLM推理效率且零精度损失
AI妹 20 天前 2 0

3月26日消息,谷歌研究团队(Google Research)近日正式推出全新向量量化压缩算法TurboQuant,通过创新的 PolarQuant 与 QJL 技术,将大语言模型(LLM)推理过