数学推理能力 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"数学推理能力"的内容

ModelScope社区发布UGMathBench动态大学数学推理评估基准数据集

ModelScope社区发布UGMathBench动态大学数学推理评估基准数据集

AI妹 5 个月前 16 0

最近、魔ま搭ModelScopeコミュニティは、言語モデルの大学レベルの数学における数学推論能力を包括的に評価するためのUGMathBenchと呼ばれる動的なベンチマークデータセットを発表しました

动态基准数据集数学推理能力大学水平数学有效精度率(EAcc) 开源模型

查看详情

魔搭ModelScope发布UGMathBench动态基准数据集助力评估语言模型本科数学推理能力

魔搭ModelScope发布UGMathBench动态基准数据集助力评估语言模型本科数学推理能力

AI妹 5 个月前 19 0

近日，魔搭ModelScope社區宣佈發佈一項名爲UGMathBench的動態基準測試數據集，旨在全面評估語言模型在本科數學廣泛科目中的數學推理能力。這一數據集的問世，填補了當前在本科數學領域評估

魔搭ModelScope社区数学推理能力稳健性效率(RE) 有效准确率(EAcc) 本科数学

查看详情

Anthropic测试Claude Neptune v3或为4.5版安全性能受关注AI竞争抢先机

Anthropic测试Claude Neptune v3或为4.5版安全性能受关注AI竞争抢先机

AI妹 5 个月前 16 0

據報道，Anthropic正在緊鑼密鼓地測試代號爲“Claude Neptune v3”的全新AI模型。這一消息引發了AI社區的廣泛關注，許多業內人士推測，Neptune v3可能是Claude4

Kingfall 数学推理能力宪法AI Claude Neptune v3 复杂推理

查看详情

Anthropic测试Claude Neptune v3 或为Claude4.5雏形引发行业期待

Anthropic测试Claude Neptune v3 或为Claude4.5雏形引发行业期待

AI妹 5 个月前 18 0

据报道，Anthropic正在紧锣密鼓地测试代号为“Claude Neptune v3”的全新AI模型。这一消息引发了AI社区的广泛关注，许多业内人士推测，Neptune v3可能是Claude4

复杂推理 AI模型 SWE-bench GPT-5 Kingfall模型

查看详情

Hugging Face开源SmolLM3：3B参数性能直逼4B，多优势赋能多场景

Hugging Face开源SmolLM3：3B参数性能直逼4B，多优势赋能多场景

AI妹 5 个月前 15 0

近日，Hugging Face正式推出全新开源语言模型 SmolLM3，一款拥有3B参数的轻量级大语言模型（LLM），以其卓越性能和高效设计引发行业广泛关注。SmolLM3不仅在多项基准测试中超越

商业应用支持快速问答客户支持场景适配学术研究应用 Gemma3-4B对比

查看详情

字节跳动Seed团队联合港大复旦推出POLARIS 提升小模型数学推理媲美大模型

字节跳动Seed团队联合港大复旦推出POLARIS 提升小模型数学推理媲美大模型

AI妹 5 个月前 16 0

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美

数学推理能力长度外推技术采样温度控制强化学习训练方法数据动态更新策略

查看详情

字节跳动联合港大复旦推出POLARIS强化学习方法提升小模型数学推理能力

字节跳动联合港大复旦推出POLARIS强化学习方法提升小模型数学推理能力

AI妹 5 个月前 18 0

近日，字節跳動Seed團隊攜手香港大學與復旦大學，共同推出了創新的強化學習訓練方法——POLARIS。該方法通過精心設計的Scaling RL策略，成功將小模型的數學推理能力提升至與超大模型相媲美

动态调整训练数据难度分布香港大学消费级显卡部署 POLARIS 开源模型

查看详情

研究质疑Qwen2.5数学高分源于数据记忆而非真实推理能力

研究质疑Qwen2.5数学高分源于数据记忆而非真实推理能力

AI妹 5 个月前 18 0

據國外媒體報道，一項最新研究對阿里巴巴Qwen2.5模型的高數學分數提出了質疑，指出其看似卓越的數學推理能力，可能主要來源於對訓練數據的記憶，而非真正的推理。研究人員通過一系列嚴謹的測試發現，數

受污染基准测试记忆依赖阿里巴巴 LiveMathBench RLVR实验

查看详情

研究质疑Qwen2.5数学高分源于记忆而非推理，数据污染成关键

研究质疑Qwen2.5数学高分源于记忆而非推理，数据污染成关键

AI妹 5 个月前 20 0

据国外媒体报道，一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑，指出其看似卓越的数学推理能力，可能主要来源于对训练数据的记忆，而非真正的推理。研究人员通过一系列严谨的测试发现，数

MATH500 LiveMathBench Qwen3系列记忆效应响应模板变化

查看详情



资讯姬

文章数量13543

总阅读量238.071k

总评论量0

会员数量2

本站由emlog驱动