关闭导航

包含标签"SWE-bench Verified"的内容

阿里云Qwen3-Coder AI编程大模型开源 能力达开源顶尖水平
AI妹 4 个月前 42 0

7月23日,阿里雲正式宣佈其最新的AI編程大模型Qwen3-Coder全面開源,這一舉措迅速在智能編程領域掀起熱潮。Qwen3-Coder憑藉其卓越的代碼生成和Agent能力,在Agentic C

Mistral AI发布Devstral2系列开源编码模型 性能刷新纪录工具同步开源
AI妹 4 个月前 21 0

Mistral AI 正式推出第二代开源编码模型家族:Devstral2(1230亿参数旗舰版)与 Devstral Small2(240亿参数轻量版)。旗舰模型在 SWE-Bench Verif

Mistral AI发布新一代Devstral2系列编码模型及Mistral Vibe开源工具
AI妹 4 个月前 19 0

近日,Mistral AI 正式发布了其第二代开源编码模型家族,分别命名为 Devstral2和 Devstral Small2。这两款新模型不仅在性能上取得了显著进展,而且在许可策略上也进行了差

Mistral AI推出Devstral2及Small2编码模型,含差异化许可与Vibe工具
AI妹 4 个月前 18 0

 Mistral AI 正式推出其第二代开源编码模型家族:Devstral2 和 Devstral Small2。此次发布的核心亮点是旗舰模型在性能上实现突破,同时该公司采用了针对不同规

腾讯混元2.0发布:混合专家架构 长上下文 推理效率业界领先接入生态
AI妹 4 个月前 29 0

腾讯自研大模型混元2.0(Tencent HY2.0)正式发布,与此同时,DeepSeek V3.2也逐步接入腾讯生态。目前,这两大模型已在元宝、ima等腾讯AI原生应用中率先上线,腾讯云也同步开

OpenAI推GPT-5.1-Codex-Max 性能提升价格不变适配Win
AI妹 4 个月前 25 0

近日,OpenAI 正式向开发者推出其最新的编程模型 ——GPT-5.1-Codex-Max。这一新模型不仅在性能上有了显著提升,而且在价格上却与其前身 GPT-5保持一致,成为开发者们热议的焦点

Claude Opus4.5上线亚马逊Bedrock 提升编码办公能力且性价比优越
AI妹 4 个月前 24 0

在人工智能领域,Anthropic 推出了最新的基础模型 ——Claude Opus4.5,该模型现已在亚马逊 Bedrock 平台上提供。亚马逊 Bedrock 是一项完全托管的服务,允许用户选