关闭导航

包含标签"语言模型评估"的内容

魔搭ModelScope发布UGMathBench数据集 评估语言模型本科数学推理能力
AI妹 1 个月前 8 0

近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估