关闭导航

包含标签"GRPO强化学习"的内容

DeepSeek-Math-V2开源:236B MoE数学近GPT-4o,编程能力对标闭源巨头
AI妹 1 个月前 23 0

11月27日,DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2,采用 MoE 架构,活跃参数仅21B,上下文一口气拉到128K tok