RL - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"RL"的内容

Kimina-Prover预览版发布性能优异且开源相关模型与数据集

Kimina-Prover预览版发布性能优异且开源相关模型与数据集

AI妹 5 个月前 20 0

Kimi 技术团队近日发布了 Kimina-Prover 预览版的技术报告，并开源了1.5B 和7B 参数的模型蒸馏版本、用于数据生成的 Kimina-Autoformalizer-7

RL Numina团队 miniF2F基准测试数据集 arXiv技术报告推理驱动探索范式

查看详情

Kimina-Prover数学定理证明模型性能领先团队开源系列模型及数据集

Kimina-Prover数学定理证明模型性能领先团队开源系列模型及数据集

AI妹 5 个月前 21 0

The Kimi technical team recently released a technical report on the preview version of Kimina-Prov

1.5B参数 RL Kimi技术团队推理驱动探索范式 Kimina-Autoformalizer-7B

查看详情

清华交大联合研究挑战纯RL提升大模型推理能力的传统观点

清华交大联合研究挑战纯RL提升大模型推理能力的传统观点

AI妹 5 个月前 16 0

【研究顛覆】清華大學與上海交通大學聯合發表的最新論文，對業界普遍認爲"純強化學習（RL）能提升大模型推理能力"的觀點提出了挑戰性反駁。研究發現，引入強化學習的模型在某些任務中的表現，反而遜色於

RL 编码任务 GSM8K 能力创造器数学任务

查看详情

清华交大研究反驳纯RL提升大模型推理能力实验揭示关键局限

清华交大研究反驳纯RL提升大模型推理能力实验揭示关键局限

AI妹 5 个月前 16 0

【研究颠覆】清华大学与上海交通大学联合发表的最新论文，对业界普遍认为"纯强化学习（RL）能提升大模型推理能力"的观点提出了挑战性反驳。研究发现，引入强化学习的模型在某些任务中的表现，反而逊色于

强化学习大模型视觉推理知识组织清华大学

查看详情

小米推出開源推理大模型MiMo 7億參數性能領先同類模型

小米推出開源推理大模型MiMo 7億參數性能領先同類模型

AI妹 5 个月前 17 0

全球知名科技公司小米正式發佈其首個針對推理（Reasoning）而生的大型開源模型 ——Xiaomi MiMo。該模型旨在解決當前預訓練模型在推理能力上的瓶頸，探索如何更有效地激發模型的推理潛能。

QwQ-32B-Preview 数学推理小米 RL 简单数据重采样

查看详情

阿里巴巴ZeroSearch：无需真实搜索引擎，降本增效革新AI训练模式

阿里巴巴ZeroSearch：无需真实搜索引擎，降本增效革新AI训练模式

AI妹 5 个月前 16 0

阿里巴巴集团研究人员近日推出一项名为"ZeroSearch"的突破性技术，彻底改变了训练人工智能系统搜索信息的方式。这项创新技术通过模拟方法让大型语言模型（LLM）开发高级搜索功能，无需在训练过程

Google搜索 RL LLaMA-3.2 A100 GPU Hugging Face

查看详情

Creao AI完成两轮融资全力推进下一代Agentic OS系统研发

Creao AI完成两轮融资全力推进下一代Agentic OS系统研发

AI妹 5 个月前 17 0

【AIbase 報道】米国時間2025年7月31日、シリコンバレーに本社を置く人工知能スタートアップ企業Creao AIは、連続して2つの資金調達を完了したことを発表しました。初期投資としてYun

Creao AI RL プログラミング能力 AI基礎モデル Hua Capital

查看详情

Flow-GRPO：在线RL赋能流動模型，大幅提升图像生成性能

（注：字符数控制在30左右，准确涵盖核心主体Flow-GRPO、关键技术在线RL、应用对象流動模型及效果提升方向图像生成性能，符合要求）

Flow-GRPO：在线RL赋能流動模型，大幅提升图像生成性能（注：字符数控制在30左右，准确涵盖核心主体Flow-GRPO、关键技术在线RL、应用对象流動模型及效果提升方向图像生成性能，符合要求）

AI妹 5 个月前 18 0

論文リンク: https://www.arxiv.org/pdf/2505.05470 プロジェクトリンク: https://github.com/yifan123/flow_grpo 一方で、

テキストから画像生成 SDE ノイズ削減戦略 KL制約 ODE

查看详情

阿里通义ZeroSearch：模拟搜索无需真实引擎提升大模型推理能力

阿里通义ZeroSearch：模拟搜索无需真实引擎提升大模型推理能力

AI妹 5 个月前 17 0

在人工智能的迅速发展中，如何提升大语言模型（LLM）的检索和推理能力成为研究的热门话题。近日，阿里通义实验室提出了一个名为 “ZeroSearch” 的新框架，它能够使大型语言模型自己模拟搜索引擎

阿里通义实验室通义Qwen 课程式学习 RL 推理能力

查看详情

字节跳动Seed团队推出GR-3 VLA模型，机器人操作能力获突破性进展

字节跳动Seed团队推出GR-3 VLA模型，机器人操作能力获突破性进展

AI妹 5 个月前 15 0

近日，字节跳动Seed团队正式推出全新Vision-Language-Action Model（VLA）模型GR-3，该模型在机器人操作领域展现出突破性能力，不仅能理解包含抽象概念的语言指令，还可

机器人操作 VR人类轨迹数据图文数据全身运动控制遥操作机器人数据

查看详情

1



资讯姬

文章数量13527

总阅读量227.786k

总评论量0

会员数量2

本站由emlog驱动