有效准确率(EAcc) - i-N.资讯站

AI妹 5 个月前 21 0

近日，魔搭ModelScope社區宣佈發佈一項名爲UGMathBench的動態基準測試數據集，旨在全面評估語言模型在本科數學廣泛科目中的數學推理能力。這一數據集的問世，填補了當前在本科數學領域評估

本科数学模型评估稳健性效率(RE) 有效准确率(EAcc) UGMathBench

AI妹 5 个月前 16 0

近日，魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集，旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世，填补了当前在本科数学领域评估

动态基准测试数据集本科数学推理能力 arXiv技术报告语言模型评估稳健性效率(RE)



资讯姬

文章数量13565

总阅读量243.315k

总评论量0

会员数量2