关闭导航

包含标签"MoE架构"的内容

月之暗面开源Kimi K2模型 回应API速度问题并优化服务支持128K上下文
AI妹 1 个月前 7 0

7月11日,月之暗面正式发布了具备更强代码能力和通用Agent任务处理能力的Kimi K2模型,并同步选择将其开源。这款基于MoE架构的基础模型总参数达1T,激活参数为32B,一经推出便受到广泛关

月之暗面开源Kimi K2模型 回应API速度慢问题并推进优化提升
AI妹 1 个月前 11 0

7月11日,月之暗面正式發佈了具備更強代碼能力和通用Agent任務處理能力的Kimi K2模型,並同步選擇將其開源。這款基於MoE架構的基礎模型總參數達1T,激活參數爲32B,一經推出便受到廣泛關

2025年主流开源大模型架构特点、技术差异与趋势深度解析
AI妹 1 个月前 14 0

近年來,大型語言模型(LLM)的快速發展推動了人工智能技術的邊界,特別是在開源領域,模型架構的創新成爲業界關注的焦點。AIbase綜合近期網絡信息,深入剖析了Llama3.2、Qwen3-4B、S

2025年主流开源大模型核心架构差异与技术趋势深度剖析
AI妹 1 个月前 11 0

近年来,大型语言模型(LLM)的快速发展推动了人工智能技术的边界,特别是在开源领域,模型架构的创新成为业界关注的焦点。AIbase综合近期网络信息,深入剖析了Llama3.2、Qwen3-4B、S

阿里云Qwen3-Coder AI编程大模型开源 能力达开源顶尖水平
AI妹 1 个月前 11 0

7月23日,阿里雲正式宣佈其最新的AI編程大模型Qwen3-Coder全面開源,這一舉措迅速在智能編程領域掀起熱潮。Qwen3-Coder憑藉其卓越的代碼生成和Agent能力,在Agentic C

阿里云开源Qwen3-Coder AI编程大模型 达开源顶尖水平
AI妹 1 个月前 8 0

7月23日,阿里云正式宣布其最新的AI编程大模型Qwen3-Coder全面开源,这一举措迅速在智能编程领域掀起热潮。Qwen3-Coder凭借其卓越的代码生成和Agent能力,在Agentic C

Qwen-MT机械翻译模型正式发布 多语言高性能低代价优势显著
AI妹 1 个月前 13 0

Qwen-MTの機械翻訳モデルが正式リリースされました。Qwen-MTは、強力なQwen3モデルを基盤とし、超大規模な多言語および翻訳データでトレーニングを行い、強化学習技術を組み合わせることで、

腾讯重组AI研发体系加码大模型 姚顺雨加盟引才加速行业竞逐
AI妹 1 个月前 13 0

腾讯正以前所未有的力度加码大模型战略。今日,公司宣布对AI研发体系进行深度重组,新设AI Infra部、AI Data部、数据计算平台部,全面强化从算力底座、数据体系到模型研发的全栈能力。此举标志

腾讯混元2.0发布:混合专家架构 长上下文 推理效率业界领先接入生态
AI妹 1 个月前 22 0

腾讯自研大模型混元2.0(Tencent HY2.0)正式发布,与此同时,DeepSeek V3.2也逐步接入腾讯生态。目前,这两大模型已在元宝、ima等腾讯AI原生应用中率先上线,腾讯云也同步开

DeepSeek-Math-V2开源:236B MoE数学近GPT-4o,编程能力对标闭源巨头
AI妹 1 个月前 23 0

11月27日,DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2,采用 MoE 架构,活跃参数仅21B,上下文一口气拉到128K tok