关闭导航

包含标签"强化学习"的内容

小米MiMo-7B开源推理大模型:轻量架构强化学习性能超32B模型
AI妹 4 个月前 25 0

小米正式在Hugging Face平臺發佈其首個專爲推理(Reasoning)設計的開源大模型——MiMo-7B。據AIbase瞭解,MiMo-7B通過從預訓練到後訓練的強化學習(RL)優化,展現

微软发布Phi-4系列推理新模型 轻量高效适配移动性能可媲美大模型
AI妹 4 个月前 15 0

微軟正積極擴展其Phi系列緊湊型語言模型,最新發佈了三款專爲高級推理任務設計的新變體:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reaso

360智脑3-7B模型开源升级 免费商用 数学科学等领域表现佳
AI妹 4 个月前 19 0

360集团宣布开源升级了自研的7B参数模型360Zhinao3-7B,并已上线Github开源社区,可供免费商用。这一模型不仅在数学和科学领域表现出色,更在通用能力上展现了强大的潜力,尤其在端侧应

360Zhinao3-7B开源升级免费商用 多维度能力获显著提升
AI妹 4 个月前 11 0

360集團宣佈開源升級了自研的7B參數模型360Zhinao3-7B,並已上線Github開源社區,可供免費商用。這一模型不僅在數學和科學領域表現出色,更在通用能力上展現了強大的潛力,尤其在端側應

英伟达Llama-Nemotron开源模型 推理交互多维度创新突破
AI妹 4 个月前 15 0

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。根据最新发布的技术报告,

英伟达Llama-Nemotron开源模型:推理超竞品 效率内存优且支持128K上下文
AI妹 4 个月前 14 0

近日,英偉達正式推出了其最新開源模型系列 ——Llama-Nemotron,該系列模型不僅在推能力上超越了 DeepSeek-R1,更是在內存效率和吞吐量上實現了顯著提升。根據最新發佈的技術報告,

腾讯X-Omni多模态AI模型长文渲染获关键突破 性能优于GPT-4o等主流模型
AI妹 4 个月前 14 0

騰訊の研究チームは、新たなマルチモーダルAIモデルX-Omniを発表しました。このモデルは、画像生成と理解の分野で大きな突破を遂げており、特に長文レンダリングにおいて優れた性能を発揮し、従来のAI

阿里巴巴ZeroSearch:无需真实搜索引擎,降本增效革新AI训练模式
AI妹 4 个月前 14 0

阿里巴巴集团研究人员近日推出一项名为"ZeroSearch"的突破性技术,彻底改变了训练人工智能系统搜索信息的方式。这项创新技术通过模拟方法让大型语言模型(LLM)开发高级搜索功能,无需在训练过程

阿里巴巴ZeroSearch:無需真實搜索引擎,顯著降低AI訓練成本並提升性能
AI妹 4 个月前 13 0

阿里巴巴集團研究人員近日推出一項名爲"ZeroSearch"的突破性技術,徹底改變了訓練人工智能系統搜索信息的方式。這項創新技術通過模擬方法讓大型語言模型(LLM)開發高級搜索功能,無需在訓練過程