SWE-Bench Pro - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"SWE-Bench Pro"的内容

稀宇科技发布新一代MiniMax M3 集三大顶尖能力的全球唯一开源大模型

稀宇科技发布新一代MiniMax M3 集三大顶尖能力的全球唯一开源大模型

AI妹 8 天前 1 0

国内大模型赛道迎来硬核技术突破。6月1日，稀宇科技正式发布了新一代大语言模型—— MiniMax M3 。该模型凭借前沿的编程实力、最高支持1M（100万）的超长

512k上下文版本 Decoding API接口 1M超长上下文窗口 SWE-Bench Pro

查看详情

稀宇科技重磅发布MiniMax M3新大模型集三大核心能力成国内首个开源模型

稀宇科技重磅发布MiniMax M3新大模型集三大核心能力成国内首个开源模型

AI妹 8 天前 0 0

国内人工智能领域迎来重大技术突破。稀宇科技于今日正式发布了新一代大模型MiniMax M3，该模型不仅具备前沿的编程能力，还支持高达1M（ 100 万）的超长上下文。更引人瞩目 border 的是

原生多模态能力新一代大模型 Claw-Eval 视频输入稀宇科技

查看详情

MiniMax M3发布：集成编程长上下文多模态开源对标海外闭源旗舰

MiniMax M3发布：集成编程长上下文多模态开源对标海外闭源旗舰

AI妹 8 天前 0 0

MiniMax 稀宇科技于2026年6月1日正式发布新一代前沿大模型MiniMax M3，这是国内首个集成了顶尖编程、1M超长上下文及原生多模态能力的开源大模

计算速度提升 Token Plan 开源模型权重 ICLR顶级论文 MiniMax M3

查看详情

Anthropic发布Claude Opus4.8：代码可靠性提升速度加快成本大幅降低

Anthropic发布Claude Opus4.8：代码可靠性提升速度加快成本大幅降低

AI妹 11 天前 1 0

人工智能领域的代码可靠性迎来重大技术突破。AI 巨头 Anthropic 近日正式发布了其旗舰模型的微调升级版 Claude Opus 4.8，该版本主打更强悍的智能体编程、多领域推理以及知识工作

智能体编程 Gemini 3.1 Pro Anthropic Claude Opus 4.8 AI睁眼说瞎话

查看详情

Anthropic发布Claude Opus4.8 强化编程推理能力并实现降本提速

Anthropic发布Claude Opus4.8 强化编程推理能力并实现降本提速

AI妹 11 天前 1 0

Anthropic于5月29日正式发布了其最新旗舰大模型Claude Opus4.8。作为一次针对用户核心痛点的精准升级，新模型在保持原有价格体系的基础上，全面强化了智能体编程、复杂逻辑推理以及多

智能体编程 GPT-5.5 Anthropic Claude Opus4.8 多领域知识工作能力

查看详情

GPT-5.5正式发布：强自主性与重大能效革命开启Agent时代生产力质的飞跃

GPT-5.5正式发布：强自主性与重大能效革命开启Agent时代生产力质的飞跃

AI妹 1 个月前 2 0

2026年4月24日，OpenAI 正式推出其迄今最强大的 AI 模型——GPT-5.5，不仅在智能水平上实现质的飞跃，更以惊人的能效比重塑大模型经济性边界。该模型专为“智能体”（Agent）时代

OpenAI 英伟达GB200NVL72 GPT-5.5 能效革命智能体(Agent)

查看详情

月之暗面发布开源Kimi K2.6 代码生成与长程Agent能力对标国际顶尖闭源模型

月之暗面发布开源Kimi K2.6 代码生成与长程Agent能力对标国际顶尖闭源模型

AI妹 1 个月前 3 0

在国内人工智能赛道竞争日趋激烈的背景下，代码生成与智能体（Agent）正成为各大厂商角逐的核心战场。 4 月 20 日晚，头部AI创业公司月之暗面正式发布并开源了其最新模型Kimi K2.6。这款

Gemini 3.1 Pro gpt-5.4 代码生成 Agent集群协同长程任务处理

查看详情

月之暗面发布开源Kimi K2.6 编程长程任务Agent协作能力显著跨越

月之暗面发布开源Kimi K2.6 编程长程任务Agent协作能力显著跨越

AI妹 1 个月前 3 0

国产大模型领域迎来重磅更新。4月21日，月之暗面（Moonshot AI）正式发布并开源了其最新旗舰模型 Kimi K2.6。这款模型在编程能力、长程任务处理以及多Agent(智能体)协作方面实现

视觉能力与代码融合 Mac本地部署月之暗面协同办公本地化泛化能力

查看详情

Claude Opus4.7发布：解决靠谱问题，跑分亮眼气质更像同事

Claude Opus4.7发布：解决靠谱问题，跑分亮眼气质更像同事

AI妹 1 个月前 3 0

Anthropic今年的节奏依然凶猛，几乎每隔一天就有新动作落地。而就在刚刚，万众期待的Claude Opus4.7正式发布。有意思的是，Anthropic在公告里直接坦言:「这并非我们最强大的模

深度审查指令 Claude Opus4.7 Auto Mode扩展 BrowseComp xhigh思考强度

查看详情

智谱发布GLM-5.1提价对齐国际顶尖技术破纪录股价大涨

智谱发布GLM-5.1提价对齐国际顶尖技术破纪录股价大涨

AI妹 2 个月前 3 0

近日，智谱正式发布全新大模型GLM-5.1。伴随新品上线，模型聚合平台OpenRouter监测显示，智谱GLM全线提价10%。此次调价后，GLM-5.1在Coding（编程）等核心场景的缓存命中T

价格对齐自主工程能力战略转型长时作业 SWE-Bench Pro

查看详情

1



资讯姬

文章数量13527

总阅读量228.452k

总评论量0

会员数量2

本站由emlog驱动