关闭导航

包含标签"长上下文应用"的内容

谷歌TurboQuant显著压缩KV Cache,提升LLM推理效率且零精度损失
AI妹 20 天前 2 0

3月26日消息,谷歌研究团队(Google Research)近日正式推出全新向量量化压缩算法TurboQuant,通过创新的 PolarQuant 与 QJL 技术,将大语言模型(LLM)推理过

OpenAI算力暴涨9.5倍 营收破200亿 推理成本降 聚焦AI Agent
AI妹 2 个月前 10 0

OpenAI 首席财务官 Sarah Friar 近日披露了公司在财务业绩与基础设施建设方面的最新进展。数据显示,