关闭导航

包含标签"Block AttnRes"的内容

月之暗面Kimi发布Attention Residuals 重构残差连接节省算力提升模型效果
AI妹 28 天前 3 0

同样的算力与数据,凭什么有的模型效果更好? 月之暗面 (Moonshot AI) 给出了一个直击底层逻辑的答案。 3月16日, Kimi