RLVR - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"RLVR"的内容

阿里通义实验室FIPO算法突破大模型推理瓶颈提升复杂推理能力

阿里通义实验室FIPO算法突破大模型推理瓶颈提升复杂推理能力

AI妹 2 个月前 2 0

阿里通义实验室的 Qwen Pilot 团队近日推出了一种全新的算法 FIPO（Future-KL Influenced Policy Optimization），该算法旨在突破当前大模型在推理过

Future-KL Influenced Policy Optimization Qwen2.5-32B-Base 关键Token识别强化学习 RLVR

查看详情

清华上交研究质疑RL提升大语言模型推理能力引发学界广泛讨论

清华上交研究质疑RL提升大语言模型推理能力引发学界广泛讨论

AI妹 5 个月前 19 0

【研究の転換点】清華大学と上海交通大学が共同発表した最新の論文は、業界で広く信じられている「純粋な強化学習（RL）は大規模言語モデルの推論能力を向上させる」という見解に異議を唱えています。研

RLVR 蒸留 HumanEval+ 报酬构造上海交通大学

查看详情

AZR零数据自博弈机制显著提升LLM编程数学能力成AI自进化标杆

AZR零数据自博弈机制显著提升LLM编程数学能力成AI自进化标杆

AI妹 5 个月前 18 0

一項名爲Absolute Zero Reasoner（AZR）的創新項目近日引發廣泛關注。該項目通過一種全新的“絕對零點”訓練範式，讓大型語言模型(LLM)能夠自主提出問題、編寫代碼、運行驗證，並

零数据训练范式代码执行器 Absolute Zero Reasoner 高显存GPU 零数据训练

查看详情

「Qwen2.5数学高スコアの疑問：データ汚染による記憶か真の推論か」

「Qwen2.5数学高スコアの疑問：データ汚染による記憶か真の推論か」

AI妹 5 个月前 23 0

国外メディアの報道によると、最新の研究ではアリババのQwen2.5モデルが得た高い数学スコアに疑問を投げかけており、その見かけ上の優れた数学的推論能力が、実際に推論によるものではなく、訓練データへ

Qwen2.5 合成データ報酬信号 RandomCalculationデータセットデータ汚染

查看详情

研究质疑Qwen2.5数学高分源于记忆而非推理，数据污染成关键

研究质疑Qwen2.5数学高分源于记忆而非推理，数据污染成关键

AI妹 5 个月前 20 0

据国外媒体报道，一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑，指出其看似卓越的数学推理能力，可能主要来源于对训练数据的记忆，而非真正的推理。研究人员通过一系列严谨的测试发现，数

基准测试数学推理能力 Llama3.1-8B 干净基准阿里巴巴

查看详情



资讯姬

文章数量13533

总阅读量232.256k

总评论量0

会员数量2

本站由emlog驱动