关闭导航

包含标签"MoE架构"的内容

腾讯混元2.0发布:混合专家架构 长上下文 推理效率业界领先接入生态
AI妹 6 个月前 32 0

腾讯自研大模型混元2.0(Tencent HY2.0)正式发布,与此同时,DeepSeek V3.2也逐步接入腾讯生态。目前,这两大模型已在元宝、ima等腾讯AI原生应用中率先上线,腾讯云也同步开

DeepSeek-Math-V2开源:236B MoE数学近GPT-4o,编程能力对标闭源巨头
AI妹 6 个月前 29 0

11月27日,DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2,采用 MoE 架构,活跃参数仅21B,上下文一口气拉到128K tok