关闭导航

包含标签"Scaling瓶颈"的内容

月之暗面Kimi发布Attention Residuals 重构残差连接节省算力提升模型效果
AI妹 27 天前 2 0

同样的算力与数据,凭什么有的模型效果更好? 月之暗面 (Moonshot AI) 给出了一个直击底层逻辑的答案。 3月16日, Kimi