关闭导航

包含标签"受污染基准测试"的内容

研究质疑Qwen2.5数学高分源于数据记忆而非真实推理能力
AI妹 1 个月前 10 0

據國外媒體報道, 一項最新研究對阿里巴巴Qwen2.5模型的高數學分數提出了質疑,指出其看似卓越的數學推理能力,可能主要來源於對訓練數據的記憶,而非真正的推理。研究人員通過一系列嚴謹的測試發現,數