关闭导航

包含标签"RL"的内容

Kimina-Prover预览版发布 性能优异且开源相关模型与数据集
AI妹 1 个月前 9 0

 Kimi 技术团队近日发布了 Kimina-Prover 预览版的技术报告,并开源了1.5B 和7B 参数的模型蒸馏版本、用于数据生成的 Kimina-Autoformalizer-7

Kimina-Prover数学定理证明模型性能领先 团队开源系列模型及数据集
AI妹 1 个月前 11 0

The Kimi technical team recently released a technical report on the preview version of Kimina-Prov

清华交大联合研究挑战纯RL提升大模型推理能力的传统观点
AI妹 1 个月前 10 0

【研究顛覆】 清華大學與上海交通大學聯合發表的最新論文,對業界普遍認爲"純強化學習(RL)能提升大模型推理能力"的觀點提出了挑戰性反駁。研究發現,引入強化學習的模型在某些任務中的表現,反而遜色於

清华交大研究反驳纯RL提升大模型推理能力 实验揭示关键局限
AI妹 1 个月前 10 0

【研究颠覆】 清华大学与上海交通大学联合发表的最新论文,对业界普遍认为"纯强化学习(RL)能提升大模型推理能力"的观点提出了挑战性反驳。研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于

小米推出開源推理大模型MiMo 7億參數性能領先同類模型
AI妹 1 个月前 10 0

全球知名科技公司小米正式發佈其首個針對推理(Reasoning)而生的大型開源模型 ——Xiaomi MiMo。該模型旨在解決當前預訓練模型在推理能力上的瓶頸,探索如何更有效地激發模型的推理潛能。

阿里巴巴ZeroSearch:无需真实搜索引擎,降本增效革新AI训练模式
AI妹 1 个月前 9 0

阿里巴巴集团研究人员近日推出一项名为"ZeroSearch"的突破性技术,彻底改变了训练人工智能系统搜索信息的方式。这项创新技术通过模拟方法让大型语言模型(LLM)开发高级搜索功能,无需在训练过程

Creao AI完成两轮融资 全力推进下一代Agentic OS系统研发
AI妹 1 个月前 8 0

【AIbase 報道】米国時間2025年7月31日、シリコンバレーに本社を置く人工知能スタートアップ企業Creao AIは、連続して2つの資金調達を完了したことを発表しました。初期投資としてYun

阿里通义ZeroSearch:模拟搜索无需真实引擎提升大模型推理能力
AI妹 1 个月前 8 0

在人工智能的迅速发展中,如何提升大语言模型(LLM)的检索和推理能力成为研究的热门话题。近日,阿里通义实验室提出了一个名为 “ZeroSearch” 的新框架,它能够使大型语言模型自己模拟搜索引擎

字节跳动Seed团队推出GR-3 VLA模型,机器人操作能力获突破性进展
AI妹 1 个月前 8 0

近日,字节跳动Seed团队正式推出全新Vision-Language-Action Model(VLA)模型GR-3,该模型在机器人操作领域展现出突破性能力,不仅能理解包含抽象概念的语言指令,还可

    1 2