关闭导航

包含标签"SWE-bench Verified"的内容

月之暗面推出Kimi K2.6-code-preview 国产编程AI步入万亿参数时代
AI妹 3 天前 1 0

据报道,继 GLM-5.1和 MiniMax2.7之后, 月之暗面 正式推出了专为 AI 编程优化的万亿参数大模型 —— Kimi K2.6-code-p

METR研究发现SWE-bench基准显著高估AI编程能力,人工评审采纳率差距明显
AI妹 1 个月前 2 0

研究机构 METR 最新发布的一项研究显示,被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现,在基准测

MiniMax2025年报:业绩狂飙 战略跃迁 市值暗礁与红利并存
AI妹 1 个月前 2 0

2026年3月2日, MiniMax(上海稀宇科技) 发布了其上市后的首份年度成绩单。这份报告不仅是数字的堆叠,更是对“AI 时代平台型公司”这一新叙事框架的实战推演。

微软推送GPT-5.2:性能飞跃,Copilot迈入深度逻辑推理时代
AI妹 3 个月前 14 0

| 微软今日宣布正式向网页、Windows 及移动端用户推送 OpenAI 迄今为止最强大的模型系列——GPT-5.2。作为一次极具诚意的免费升级,GPT-5.2将以“智能增强版”模式与现有的 G

OpenAI发布GPT-4.1系列模型 性能超GPT-4o成本降效率提升
AI妹 4 个月前 22 0

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本

OpenAI发布GPT-4.1系列模型 性能超GPT-4o仅向开发者开放
AI妹 4 个月前 18 0

4月15日、OpenAIは公式ブログでGPT-4.1シリーズモデルの正式リリースを発表しました。GPT-4.1、GPT-4.1mini、GPT-4.1nanoの3つのサブモデルが含まれています。こ

OpenAI发布GPT-4.1系列模型 全面超越GPT-4o 高效低成本
AI妹 4 个月前 30 0

4月15日,OpenAI 在其官方博客宣佈正式發佈 GPT-4.1系列模型,涵蓋 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。該系列在編程能力、指令理解及長文本

OpenAI推出GPT-4.1系列新模型 性能提升成本优化且API专用
AI妹 4 个月前 15 0

人工知能分野の競争が激化する中、OpenAIが技術革新で再び業界をリードしています。AIbaseがソーシャルメディアから得た情報によると、OpenAIは最近、APIを通じてGPT-4.1、GPT-

OpenAI发布GPT-4.1系列模型 性能跃升成本降低成行业新焦点
AI妹 4 个月前 22 0

人工智能領域的競爭日趨白熱化,OpenAI再次以技術突破引領潮流。AIbase從社交媒體獲悉,OpenAI於近日通過API形式發佈了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4

OpenAI GPT-4.1提示工程指南解析:核心要点与行业影响
AI妹 4 个月前 19 0

人工智能技术的快速发展对提示工程(Prompt Engineering)提出了更高要求。AIbase从社交媒体获悉,OpenAI于近日发布了针对GPT-4.1的提示工程指南,详细阐述了如何通过清晰