Qwen3-4B - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"Qwen3-4B"的内容

阿里Marco-Mini-Instruct：轻量化MoE模型CPU流畅运行创新upcycling技术

阿里Marco-Mini-Instruct：轻量化MoE模型CPU流畅运行创新upcycling技术

AI妹 2 个月前 4 0

阿里国际数字商业团队近日在 Marco-MoE 系列模型中重磅推出新成员——Marco-Mini-Instruct，再次展现了“以小博大”的极致效率理念。该模型总参数量17.3B，激活参数量却仅0

Qwen3-0.6B-Base 极致轻量化 AIbase Qwen3-Next-80B-A3B-Instruct Upcycling技术

查看详情

通义灵码Qwen3上线开源混合推理模型多能力助主流IDE编程效率大幅提升

通义灵码Qwen3上线开源混合推理模型多能力助主流IDE编程效率大幅提升

AI妹 5 个月前 16 0

通义灵码团队宣布正式上线Qwen3，并开源了8款「混合推理模型」，这标志着编程智能体的进一步发展。此次开源包括两款MoE模型:Qwen3-235B-A22B（2350多亿总参数、220多亿激活参数

Qwen3-8B Qwen3-32B 魔搭MCP广场代码基准测试 Visual Studio

查看详情

Llamafile0.9.3新增Qwen3支持单文件跨平台便携运行大模型

Llamafile0.9.3新增Qwen3支持单文件跨平台便携运行大模型

AI妹 5 个月前 15 0

近日，Mozilla旗下开源项目Llamafile发布0.9.3版本，正式宣布支持Qwen3系列大语言模型。这一更新通过融合llama.cpp与Cosmopolitan Libc，将复杂的大模型推

Hugging Face Llamafile 0.9.3 Llama.cpp 隐私敏感场景

查看详情

Llamafile 0.9.3新增Qwen3支持单文件跨平台便携运行大模型

Llamafile 0.9.3新增Qwen3支持单文件跨平台便携运行大模型

AI妹 5 个月前 16 0

近日，Mozilla旗下開源項目Llamafile發佈0.9.3版本，正式宣佈支持Qwen3系列大語言模型。這一更新通過融合llama.cpp與Cosmopolitan Libc，將複雜的大模型推

阿里雲Qwen3模型 AIbase Qwen3-4B Qwen3-0.6B Llama.cpp

查看详情

字节跳动Seed团队联合港大复旦推出POLARIS 提升小模型数学推理媲美大模型

字节跳动Seed团队联合港大复旦推出POLARIS 提升小模型数学推理媲美大模型

AI妹 5 个月前 15 0

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美

AIME25 强化学习训练方法采样温度控制开源模型数学推理能力

查看详情

字节跳动联合港大复旦推出POLARIS强化学习方法提升小模型数学推理能力

字节跳动联合港大复旦推出POLARIS强化学习方法提升小模型数学推理能力

AI妹 5 个月前 17 0

近日，字節跳動Seed團隊攜手香港大學與復旦大學，共同推出了創新的強化學習訓練方法——POLARIS。該方法通過精心設計的Scaling RL策略，成功將小模型的數學推理能力提升至與超大模型相媲美

香港大学强化学习训练方法长度外推技术字节跳动Seed团队复旦大学

查看详情

字节跳动联合港大复旦推出POLARIS强化学习提升小模型数学推理并开源

字节跳动联合港大复旦推出POLARIS强化学习提升小模型数学推理并开源

AI妹 5 个月前 18 0

最近、バイトダンスのSeedチームは香港大学と復旦大学と協力して、革新的な強化学習トレーニング方法であるPOLARISを共同で発表しました。この方法は、設計されたScaling RL戦略により、小

GitHub 数学推论能力 40亿参数模型香港大学 Scaling RL战略

查看详情

2025年主要开源大模型架构特征与技术趋势深度解析

2025年主要开源大模型架构特征与技术趋势深度解析

AI妹 5 个月前 21 0

近年、大規模言語モデル（LLM）の急速な発展により、人工知能技術の境界が広がり、特にオープンソース分野において、モデルアーキテクチャのイノベーションが業界の注目を集めています。AIbaseは最近の

グループクエリーアテンション予訓練データオープンソース大規模言語モデル GQA 長文処理

查看详情

2025年主流开源大模型架构特点、技术差异与趋势深度解析

2025年主流开源大模型架构特点、技术差异与趋势深度解析

AI妹 5 个月前 21 0

近年來，大型語言模型（LLM）的快速發展推動了人工智能技術的邊界，特別是在開源領域，模型架構的創新成爲業界關注的焦點。AIbase綜合近期網絡信息，深入剖析了Llama3.2、Qwen3-4B、S

训练数据优化 DeepSeek-V3 多模态应用开源大模型分组查询注意力（GQA）

查看详情

2025年主流开源大模型核心架构差异与技术趋势深度剖析

2025年主流开源大模型核心架构差异与技术趋势深度剖析

AI妹 5 个月前 18 0

近年来，大型语言模型（LLM）的快速发展推动了人工智能技术的边界，特别是在开源领域，模型架构的创新成为业界关注的焦点。AIbase综合近期网络信息，深入剖析了Llama3.2、Qwen3-4B、S

上下文长度 Kimi-K2 性能与效率平衡共享专家预训练数据量

查看详情



资讯姬

文章数量13527

总阅读量228.96k

总评论量0

会员数量2

本站由emlog驱动