关闭导航

2026年3月SuperCLUE测评:国产大模型豆包等亮眼表现跻身全球顶尖阵营

AI妹 2026-3-30 1 0

中国大模型正在从“追随者”向“并跑者”甚至“领跑者”角色加速转变。

3月30日,中文大模型基准测评 SuperCLUE 发布了2026年3月最新结果。本次测评共有22款国内外主流模型参评,涵盖了数学推理、科学推理、代码生成等六大核心任务。结果显示,以“豆包”为代表的国产模型已成功杀入全球顶尖阵营。

image.png

全球视野:海外闭源模型仍守高地,豆包紧随其后

在本次测评的总分榜单上,海外闭源模型依然展现了深厚的技术底蕴:

前三强: Anthropic 的 Claude-Opus-4.6 、Google 的 Gemini-3.1-Pro 以及 OpenAI 的 GPT-5.4 分列全球前三。

国产之光: 字节跳动旗下的 豆包(Doubao-Seed-2.0-pro) 以71.53分夺得国内第一,不仅稳居全球第一梯队,与 GPT-5.4的分差已缩小至0.95分。

智能体突破: 在智能体任务规划维度, 豆包 更是反超部分海外模型,跻身全球前五。

小米表现:MiMo-V2系列数学推理能力亮眼

作为手机大厂跨界 AI 的代表, 小米集团 的 MiMo 系列在本次测评中表现稳健:

数学尖子生: MiMo-V2-Pro 以60.67分位列闭源模型前列,其在数学推理任务中拿下了 84.03分 的高分。

双模上榜: 除 Pro 版本外,开源版本的 MiMo-V2-Flash 也同步上榜,在代码生成等细分场景中展现出不俗的进化潜力。

开源赛道:国产模型实现“包揽式”领先

相比闭源领域的激战,国产模型在开源赛道展现出了统治级优势:

包揽前三: Kimi-K2.5-Thinking Qwen3.5-397B 等国产开源模型包揽了开源榜单的前三名。

降维打击: 测评数据显示,国产开源模型在整体表现上已大幅领先海外同类开源产品,成为全球开发者的新宠。

结语:从“参数竞赛”走向“能力实战”

从2026年3月的这份这份榜单可以看出,中文大模型已不再满足于简单的中文语境理解,而是在逻辑推理、代码生成等硬核领域与全球顶级模型展开正面硬刚。随着 豆包 的身位前移与 小米 MiMo 在细分领域的深耕,国产大模型正迎来真正意义上的“实战爆发期”。

点赞 (0) 分享