关闭导航

包含标签"多頭潛在注意力(MLA)"的内容

DeepSeek发布DeepSeek-V3技术论文 探讨大模型扩展挑战与硬件架构思考
AI妹 1 个月前 7 0

近日,DeepSeek 團隊發佈了關於其最新模型 DeepSeek-V3的一篇技術論文,重點討論了在大規模人工智能模型訓練中遇到的 “擴展挑戰” 以及與硬件架構相關的思考。這篇長達14頁的論文不僅

Nous Research发布Psyche:基于Solana的去中心化AI训练网络,开源40亿参模型
AI妹 1 个月前 8 0

Nous Research宣佈正式推出Psyche,一個基於Solana區塊鏈的去中心化AI訓練網絡,旨在讓全球用戶通過閒置計算資源參與尖端AI模型的開發。這一平臺利用DisTrO技術大幅降低帶寬