关闭导航

包含标签"数学推理能力"的内容

ModelScope社区发布UGMathBench动态大学数学推理评估基准数据集
AI妹 1 个月前 8 0

最近、魔ま搭ModelScopeコミュニティは、言語モデルの大学レベルの数学における数学推論能力を包括的に評価するためのUGMathBenchと呼ばれる動的なベンチマークデータセットを発表しました

魔搭ModelScope发布UGMathBench动态基准数据集 助力评估语言模型本科数学推理能力
AI妹 1 个月前 8 0

近日,魔搭ModelScope社區宣佈發佈一項名爲UGMathBench的動態基準測試數據集,旨在全面評估語言模型在本科數學廣泛科目中的數學推理能力。這一數據集的問世,填補了當前在本科數學領域評估

Anthropic测试Claude Neptune v3或为4.5版 安全性能受关注AI竞争抢先机
AI妹 1 个月前 8 0

據報道,Anthropic正在緊鑼密鼓地測試代號爲“Claude Neptune v3”的全新AI模型。這一消息引發了AI社區的廣泛關注,許多業內人士推測,Neptune v3可能是Claude4

Anthropic测试Claude Neptune v3 或为Claude4.5雏形引发行业期待
AI妹 1 个月前 8 0

据报道,Anthropic正在紧锣密鼓地测试代号为“Claude Neptune v3”的全新AI模型。这一消息引发了AI社区的广泛关注,许多业内人士推测,Neptune v3可能是Claude4

Hugging Face开源SmolLM3:3B参数性能直逼4B,多优势赋能多场景
AI妹 1 个月前 8 0

近日,Hugging Face正式推出全新开源语言模型 SmolLM3,一款拥有3B参数的轻量级大语言模型(LLM),以其卓越性能和高效设计引发行业广泛关注。SmolLM3不仅在多项基准测试中超越

字节跳动Seed团队联合港大复旦推出POLARIS 提升小模型数学推理媲美大模型
AI妹 1 个月前 9 0

近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美

字节跳动联合港大复旦推出POLARIS强化学习方法 提升小模型数学推理能力
AI妹 1 个月前 10 0

近日,字節跳動Seed團隊攜手香港大學與復旦大學,共同推出了創新的強化學習訓練方法——POLARIS。該方法通過精心設計的Scaling RL策略,成功將小模型的數學推理能力提升至與超大模型相媲美

研究质疑Qwen2.5数学高分源于数据记忆而非真实推理能力
AI妹 1 个月前 10 0

據國外媒體報道, 一項最新研究對阿里巴巴Qwen2.5模型的高數學分數提出了質疑,指出其看似卓越的數學推理能力,可能主要來源於對訓練數據的記憶,而非真正的推理。研究人員通過一系列嚴謹的測試發現,數

研究质疑Qwen2.5数学高分源于记忆而非推理,数据污染成关键
AI妹 1 个月前 13 0

据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数