关闭导航

包含标签"推理差距(Δ)"的内容

ModelScope社区发布UGMathBench动态大学数学推理评估基准数据集
AI妹 1 个月前 9 0

最近、魔ま搭ModelScopeコミュニティは、言語モデルの大学レベルの数学における数学推論能力を包括的に評価するためのUGMathBenchと呼ばれる動的なベンチマークデータセットを発表しました

魔搭ModelScope发布UGMathBench动态基准数据集 助力评估语言模型本科数学推理能力
AI妹 1 个月前 8 0

近日,魔搭ModelScope社區宣佈發佈一項名爲UGMathBench的動態基準測試數據集,旨在全面評估語言模型在本科數學廣泛科目中的數學推理能力。這一數據集的問世,填補了當前在本科數學領域評估

魔搭ModelScope发布UGMathBench数据集 评估语言模型本科数学推理能力
AI妹 1 个月前 8 0

近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估