MoE架构 - i-N.资讯站

AI妹 6 个月前 32 0

腾讯自研大模型混元2.0（Tencent HY2.0）正式发布，与此同时，DeepSeek V3.2也逐步接入腾讯生态。目前，这两大模型已在元宝、ima等腾讯AI原生应用中率先上线，腾讯云也同步开

混合专家架构 Tau2-Bench Multi Challenge任务智能体能力 HLE

AI妹 6 个月前 29 0

11月27日，DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2，采用 MoE 架构，活跃参数仅21B，上下文一口气拉到128K tok

MoE架构 1000亿token训练语料 Generator MBPP76.2% AIME2024

...



资讯姬

文章数量13561

总阅读量242.664k

总评论量0

会员数量2