关闭导航

包含标签"推理吞吐量"的内容

MiniMax M3模型正式发布 京东云JoyBuilder同步接入开放服务 推理性能显著提升
AI妹 8 天前 1 0

今日,MiniMax M3模型正式面向市场发布,京东云JoyBuilder模型开发平台已同步完成接入,并在第一时间面向广大用户开放相关服务。 此次技术迭代的核心在于推理性能的显著改善。在应用部署

谷歌DeepMind MoR架构高效超越传统Transformer 成AI大型模型新突破
AI妹 5 个月前 14 0

在人工智能领域,大型语言模型(LLM)因其出色的表现而受到广泛关注,但其在部署时却面临着巨大的计算和内存开销问题。为了克服这一挑战,谷歌 DeepMind 最近推出了一种新架构 ——Mixture

谷歌DeepMind MoR架构:动态路由缓存优化 高效降低LLM计算内存与部署成本
AI妹 5 个月前 16 0

在人工智能領域,大型語言模型(LLM)因其出色的表現而受到廣泛關注,但其在部署時卻面臨着巨大的計算和內存開銷問題。爲了克服這一挑戰,谷歌 DeepMind 最近推出了一種新架構 ——Mixture