国产 AI 领头羊
DeepSeek
近期动作频频,继 R1 模型发布一周年后,其技术动向再次引发开发者圈震动。根据最新的
GitHub
代码提交记录显示,在
DeepSeek
更新的 FlashMLA 代码中,被发现存在大量指向未知模型“MODEL1”的标识符。
这份横跨上百个文件的代码库中,有多处将“MODEL1”与现有的
V3.2 版本
并列提及,暗示这并非现架构的简单迭代,而极有可能是一个全新的模型序列。技术层面的细节差异进一步印证了这一猜想:新架构在键值(KV)缓存布局、稀疏性处理逻辑以及对 FP8 数据格式的解码支持上,均展现出与
V3 系列
不同的设计思路,这通常意味着模型在计算效率与显存优化上实现了新的突破。
此前已有消息指出,
DeepSeek
计划在 2026 年农历新年期间发布名为
DeepSeek V4
的旗舰模型,主打更强悍的代码编写能力。结合近期官方发布的关于“优化残差连接(mHC)”以及“AI 记忆模块(Engram)”的两篇重磅论文,外界普遍猜测“MODEL1”正是这些尖端科研成果的工程化落地。
emlog2 个月前
发表在:欢迎使用emlog这是系统生成的演示评论