关闭导航

包含标签"SWE-bench Verified"的内容

Mistral AI推出Devstral2及Small2编码模型,含差异化许可与Vibe工具
AI妹 1 个月前 13 0

 Mistral AI 正式推出其第二代开源编码模型家族:Devstral2 和 Devstral Small2。此次发布的核心亮点是旗舰模型在性能上实现突破,同时该公司采用了针对不同规

腾讯混元2.0发布:混合专家架构 长上下文 推理效率业界领先接入生态
AI妹 1 个月前 22 0

腾讯自研大模型混元2.0(Tencent HY2.0)正式发布,与此同时,DeepSeek V3.2也逐步接入腾讯生态。目前,这两大模型已在元宝、ima等腾讯AI原生应用中率先上线,腾讯云也同步开

OpenAI推GPT-5.1-Codex-Max 性能提升价格不变适配Win
AI妹 1 个月前 21 0

近日,OpenAI 正式向开发者推出其最新的编程模型 ——GPT-5.1-Codex-Max。这一新模型不仅在性能上有了显著提升,而且在价格上却与其前身 GPT-5保持一致,成为开发者们热议的焦点

Claude Opus4.5上线亚马逊Bedrock 提升编码办公能力且性价比优越
AI妹 1 个月前 17 0

在人工智能领域,Anthropic 推出了最新的基础模型 ——Claude Opus4.5,该模型现已在亚马逊 Bedrock 平台上提供。亚马逊 Bedrock 是一项完全托管的服务,允许用户选