关闭导航

包含标签"强化学习(RL)"的内容

阶跃星辰开源320亿参数Step-DeepResearch 深度研究能力强成本低
AI妹 21 天前 7 0

近日,阶跃星辰正式开源了一款全新的深度研究模型 ——Step-DeepResearch。这款模型拥有320亿参数,致力于在开放式研究环境中进行自主的信息探索和专业报告生成。根据官方介绍,Step-

国产智谱GLM-4.7超越GPT-5.2登顶开源代码榜 开源Slime框架提升强化学习效率
AI妹 22 天前 8 0

年底的科技圈再度掀起波澜,智谱科技最新推出的 GLM-4.7模型不仅在代码竞技场的 WebDev 榜单上超越了 GPT-5.2,荣登开源大模型第一,还引发了网友们的热烈讨论和实测狂潮。这个被称为

Kimina-Prover预览版发布 开源模型数据集 刷新miniF2F基准性能纪录
AI妹 1 个月前 9 0

 Kimi 技術團隊近日發佈了 Kimina-Prover 預覽版的技術報告,並開源了1.5B 和7B 參數的模型蒸餾版本、用於數據生成的 Kimina-Autoformalizer-7

清华上交研究质疑RL提升大语言模型推理能力 引发学界广泛讨论
AI妹 1 个月前 11 0

【研究の転換点】 清華大学と上海交通大学が共同発表した最新の論文は、業界で広く信じられている「純粋な強化学習(RL)は大規模言語モデルの推論能力を向上させる」という見解に異議を唱えています。研

xAI Grok3.5测试版下周推出 SuperGrok专属 聚焦第一性原理推理与技术专精
AI妹 1 个月前 11 0

xAI宣佈Grok3.5測試版將於下週正式推出,首批僅對SuperGrok訂閱用戶開放。據AIbase瞭解,該版本以其在火箭發動機和電化學等領域的精準技術解答能力引發熱議,號稱“全球首個人工智能能

ByteDance Trae AIコードエディター、OpenAI o3モデルをサポートし開発効率向上
AI妹 1 个月前 8 0

人工知能技術の急激な発展に伴い、AI駆動型のコードエディターツールは開発者にとって注目を集める存在となっています。最近、AIbaseが報じたところによると、バイトダンス(ByteDance)がリリ

阿里通义ZeroSearch框架:强化学习模拟搜索无需真实引擎提升大模型推理
AI妹 1 个月前 9 0

在人工智能的迅速發展中,如何提升大語言模型(LLM)的檢索和推理能力成爲研究的熱門話題。近日,阿里通義實驗室提出了一個名爲 “ZeroSearch” 的新框架,它能夠使大型語言模型自己模擬搜索引擎

小米2025人车家生态大会发布MiMo-V2-Flash 展现AGI目标第二步技术突破
AI妹 1 个月前 10 0

在今天的2025小米人车家全生态合作伙伴大会上,小米新任 Xiaomi MiMO 大模型负责人罗福莉首次亮相,正式发布了最新的 MoE(Mixture of Experts)大模型 ——MiMo-