关闭导航

包含标签"LiveMathBench"的内容

研究质疑Qwen2.5数学高分源于数据记忆而非真实推理能力
AI妹 1 个月前 10 0

據國外媒體報道, 一項最新研究對阿里巴巴Qwen2.5模型的高數學分數提出了質疑,指出其看似卓越的數學推理能力,可能主要來源於對訓練數據的記憶,而非真正的推理。研究人員通過一系列嚴謹的測試發現,數

「Qwen2.5数学高スコアの疑問:データ汚染による記憶か真の推論か」
AI妹 1 个月前 10 0

国外メディアの報道によると、最新の研究ではアリババのQwen2.5モデルが得た高い数学スコアに疑問を投げかけており、その見かけ上の優れた数学的推論能力が、実際に推論によるものではなく、訓練データへ

研究质疑Qwen2.5数学高分源于记忆而非推理,数据污染成关键
AI妹 1 个月前 13 0

据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数