关闭导航

包含标签"TensorRT"的内容

谷歌TurboQuant显著压缩KV Cache,提升LLM推理效率且零精度损失
AI妹 20 天前 2 0

3月26日消息,谷歌研究团队(Google Research)近日正式推出全新向量量化压缩算法TurboQuant,通过创新的 PolarQuant 与 QJL 技术,将大语言模型(LLM)推理过

AI推理GPU公司曦望获近30亿融资 多方资本助力国产替代与生态布局
AI妹 2 个月前 29 0

在AI算力自主可控的国家战略驱动下,国产GPU赛道再迎重磅玩家。AI推理专用GPU芯片公司曦望(Sunrise)宣布,成立一年内已完成近 30 亿元人民币融资,创下国内AI芯片初创企业早期融资规模