关闭导航

包含标签"MoE架构"的内容

2025年主流开源大模型核心架构差异与技术趋势深度剖析
AI妹 3 个月前 16 0

近年来,大型语言模型(LLM)的快速发展推动了人工智能技术的边界,特别是在开源领域,模型架构的创新成为业界关注的焦点。AIbase综合近期网络信息,深入剖析了Llama3.2、Qwen3-4B、S

阿里云Qwen3-Coder AI编程大模型开源 能力达开源顶尖水平
AI妹 3 个月前 42 0

7月23日,阿里雲正式宣佈其最新的AI編程大模型Qwen3-Coder全面開源,這一舉措迅速在智能編程領域掀起熱潮。Qwen3-Coder憑藉其卓越的代碼生成和Agent能力,在Agentic C

阿里云开源Qwen3-Coder AI编程大模型 达开源顶尖水平
AI妹 3 个月前 41 0

7月23日,阿里云正式宣布其最新的AI编程大模型Qwen3-Coder全面开源,这一举措迅速在智能编程领域掀起热潮。Qwen3-Coder凭借其卓越的代码生成和Agent能力,在Agentic C

Qwen-MT机械翻译模型正式发布 多语言高性能低代价优势显著
AI妹 3 个月前 19 0

Qwen-MTの機械翻訳モデルが正式リリースされました。Qwen-MTは、強力なQwen3モデルを基盤とし、超大規模な多言語および翻訳データでトレーニングを行い、強化学習技術を組み合わせることで、

腾讯重组AI研发体系加码大模型 姚顺雨加盟引才加速行业竞逐
AI妹 3 个月前 17 0

腾讯正以前所未有的力度加码大模型战略。今日,公司宣布对AI研发体系进行深度重组,新设AI Infra部、AI Data部、数据计算平台部,全面强化从算力底座、数据体系到模型研发的全栈能力。此举标志

腾讯混元2.0发布:混合专家架构 长上下文 推理效率业界领先接入生态
AI妹 4 个月前 29 0

腾讯自研大模型混元2.0(Tencent HY2.0)正式发布,与此同时,DeepSeek V3.2也逐步接入腾讯生态。目前,这两大模型已在元宝、ima等腾讯AI原生应用中率先上线,腾讯云也同步开

DeepSeek-Math-V2开源:236B MoE数学近GPT-4o,编程能力对标闭源巨头
AI妹 4 个月前 25 0

11月27日,DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2,采用 MoE 架构,活跃参数仅21B,上下文一口气拉到128K tok