MATH500 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"MATH500"的内容

清华上交研究质疑RL提升大语言模型推理能力引发学界广泛讨论

清华上交研究质疑RL提升大语言模型推理能力引发学界广泛讨论

AI妹 5 个月前 19 0

【研究の転換点】清華大学と上海交通大学が共同発表した最新の論文は、業界で広く信じられている「純粋な強化学習（RL）は大規模言語モデルの推論能力を向上させる」という見解に異議を唱えています。研

清华大学 RLVR 表现能力视觉推论 HumanEval+

查看详情

清华交大联合研究挑战纯RL提升大模型推理能力的传统观点

清华交大联合研究挑战纯RL提升大模型推理能力的传统观点

AI妹 5 个月前 16 0

【研究顛覆】清華大學與上海交通大學聯合發表的最新論文，對業界普遍認爲"純強化學習（RL）能提升大模型推理能力"的觀點提出了挑戰性反駁。研究發現，引入強化學習的模型在某些任務中的表現，反而遜色於

数学任务能力创造器编码任务强化学习大模型推理能力

查看详情

清华上交联合研究挑战传统认知：纯RL难增强大模型推理能力学界热议

清华上交联合研究挑战传统认知：纯RL难增强大模型推理能力学界热议

AI妹 5 个月前 18 0

【Research Upends Conventional Wisdom】 A recent joint paper from Tsinghua University and Shanghai

清华大学强化学习编码任务基础模型推理能力评估体系

查看详情

智谱AI GLM-4.5発表オープンソース高性能低コストスマートエージェントモデル

智谱AI GLM-4.5発表オープンソース高性能低コストスマートエージェントモデル

AI妹 5 个月前 29 0

智譜AIは今日、新世代のエンドモデルGLM-4.5を正式に発表しました。これはスマートエージェントアプリケーション専用のベースモデルであり、Hugging FaceとModelScopeプラットフ

オープンソース MoE GLM-4.5-Air コード能力 MATH500

查看详情

研究质疑Qwen2.5数学高分源于数据记忆而非真实推理能力

研究质疑Qwen2.5数学高分源于数据记忆而非真实推理能力

AI妹 5 个月前 17 0

據國外媒體報道，一項最新研究對阿里巴巴Qwen2.5模型的高數學分數提出了質疑，指出其看似卓越的數學推理能力，可能主要來源於對訓練數據的記憶，而非真正的推理。研究人員通過一系列嚴謹的測試發現，數

阿里巴巴受污染基准测试 Llama3.1 数据污染 MATH500

查看详情

研究质疑Qwen2.5数学高分源于记忆而非推理，数据污染成关键

研究质疑Qwen2.5数学高分源于记忆而非推理，数据污染成关键

AI妹 5 个月前 20 0

据国外媒体报道，一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑，指出其看似卓越的数学推理能力，可能主要来源于对训练数据的记忆，而非真正的推理。研究人员通过一系列严谨的测试发现，数

基准测试 LiveMathBench 合成数据验证响应模板变化阿里巴巴

查看详情



资讯姬

文章数量13533

总阅读量231.619k

总评论量0

会员数量2

本站由emlog驱动