2026年3月SuperCLUE测评：国产大模型豆包等亮眼表现跻身全球顶尖阵营

中国大模型正在从“追随者”向“并跑者”甚至“领跑者”角色加速转变。

3月30日，中文大模型基准测评 SuperCLUE 发布了2026年3月最新结果。本次测评共有22款国内外主流模型参评，涵盖了数学推理、科学推理、代码生成等六大核心任务。结果显示，以“豆包”为代表的国产模型已成功杀入全球顶尖阵营。

全球视野:海外闭源模型仍守高地，豆包紧随其后

在本次测评的总分榜单上，海外闭源模型依然展现了深厚的技术底蕴:

前三强: Anthropic 的 Claude-Opus-4.6 、Google 的 Gemini-3.1-Pro 以及 OpenAI 的 GPT-5.4 分列全球前三。

国产之光: 字节跳动旗下的豆包（Doubao-Seed-2.0-pro）以71.53分夺得国内第一，不仅稳居全球第一梯队，与 GPT-5.4的分差已缩小至0.95分。

智能体突破: 在智能体任务规划维度，豆包更是反超部分海外模型，跻身全球前五。

小米表现:MiMo-V2系列数学推理能力亮眼

作为手机大厂跨界 AI 的代表，小米集团的 MiMo 系列在本次测评中表现稳健:

数学尖子生: MiMo-V2-Pro 以60.67分位列闭源模型前列，其在数学推理任务中拿下了 84.03分 的高分。

双模上榜: 除 Pro 版本外，开源版本的 MiMo-V2-Flash 也同步上榜，在代码生成等细分场景中展现出不俗的进化潜力。

开源赛道:国产模型实现“包揽式”领先

相比闭源领域的激战，国产模型在开源赛道展现出了统治级优势:

包揽前三: Kimi-K2.5-Thinking 与 Qwen3.5-397B 等国产开源模型包揽了开源榜单的前三名。

降维打击: 测评数据显示，国产开源模型在整体表现上已大幅领先海外同类开源产品，成为全球开发者的新宠。

结语:从“参数竞赛”走向“能力实战”

从2026年3月的这份这份榜单可以看出，中文大模型已不再满足于简单的中文语境理解，而是在逻辑推理、代码生成等硬核领域与全球顶级模型展开正面硬刚。随着豆包的身位前移与小米 MiMo 在细分领域的深耕，国产大模型正迎来真正意义上的“实战爆发期”。

资讯姬