关闭导航

包含标签"数学推理"的内容

阿里通义千问Qwen3.7系列预览模型已上线 实测性能表现亮眼
AI妹 21 天前 1 0

大模型迭代又按下了快进键。阿里通义千问 Qwen3.7系列的两款预览模型——**Qwen3.7-Max-Preview** 与 **Qwen3.7-Plus-Preview**,已悄然上线 Qwe

DeepSeek V4系列SuperCLUE测评表现佳 Pro版国内第一
AI妹 1 个月前 1 0

在最新发布的 DeepSeek V4中文大模型测评中,SuperCLUE 团队的结果显示,DeepSeek-V4-Pro 以其卓越的综合表现重新夺回国内第一的位置,而 Flash 版本则紧随其后位

2026年3月SuperCLUE测评:国产大模型豆包等亮眼表现跻身全球顶尖阵营
AI妹 2 个月前 3 0

中国大模型正在从“追随者”向“并跑者”甚至“领跑者”角色加速转变。 3月30日,中文大模型基准测评 SuperCLUE 发布了2026年3月最新结果。本次测评共

微软新发布Phi-4视觉推理模型 自适应思考多模态高效训练成亮点
AI妹 3 个月前 4 0

微软近日正式发布了全新的开源权重多模态大模型 Phi-4-reasoning-vision-15B。这款模型最大的技术突破在于其具备“自主决定思考时机”的能力——它能够智能判断任务难度,自主选择是

2025SuperCLUE中文大模型报告:海外领跑,国产局部反超
AI妹 4 个月前 100 0

SuperCLUE正式发布了“2025年度中文大模型基准测评报告”,这场汇聚了23个国内外顶尖模型的“全明星赛”,再次揭示了全球AI战局的新动向。测评覆盖了数学推理、代码生成及科学推理等六大核心维

2025SuperCLUE中文大模型评测:海外前三包揽 国产模型表现惊喜
AI妹 4 个月前 35 0

近日,SuperCLUE 发布了2025年度中文大模型基准测评报告,吸引了众多科技爱好者的目光。在此次评测中,共有23个国内外大模型参与角逐,涵盖数学推理、科学推理和代码生成等六大核心维度。评测结

全球首个兼具自主出题解题的通矩模型突破AI数学推理范式入选竞赛
AI妹 4 个月前 9 0

1月26日,顶级学术期刊《自然·机器智能》(Nature Machine Intelligence)刊发了我国科研团队的重大突破:全球首个兼具“自主出题”与“自动解题”双重能力的通用人工智能系统—

Kimi K2.5低调发布 视觉与工具调用双升级性能惊艳引热议
AI妹 4 个月前 17 0

最新情报显示,Kimi K2.5已悄然在网络上发布,这一升级迅速引发行业热议。 据多方信息汇总,Kimi K2.5已于近日在Moonshot AI官网(kimi.com)低调上线。这一版本并非大

美团LongCat团队开源LongCat-Flash-Thinking-2601核心优势工具调用卓越且首次开源重思考模式体验
AI妹 4 个月前 43 0

今日,美团 LongCat 团队正式发布并开源了最新的 AI 模型 ——LongCat-Flash-Thinking-2601。该模型作为 LongCat-Flash-Thinking 系列的升级

Liquid AI发布LFM2.5小型多模态模型家族 赋能边缘高效智能应用
AI妹 5 个月前 18 0

Liquid AI 最近推出了 LFM2.5,这是一个新一代的小型基础模型家族,基于 LFM2架构,专注于边缘设备和本地部署。该模型家族包括 LFM2.5-1.2B-Base 和 LFM2.5-1