关闭导航

包含标签"SWE-bench"的内容

K奖大赛巴西程序员7.5%正确率获奖 敲响AI领域现状警钟
AI妹 4 个月前 15 0

在一個新的人工智能編程挑戰賽中,結果引發了廣泛關注。由 Laude Institute 主辦的 K 獎大賽於最近公佈了首位獲獎者,令人驚訝的是,獲得5萬美元獎金的巴西程序員愛德華多・霍查・德・安德

K奖巴西程序员7.5%正确率获5万奖金 暴露AI编程模型当前局限
AI妹 4 个月前 15 0

在一个新的人工智能编程挑战赛中,结果引发了广泛关注。由 Laude Institute 主办的 K 奖大赛于最近公布了首位获奖者,令人惊讶的是,获得5万美元奖金的巴西程序员爱德华多・霍查・德・安德

K奖新基准AI编程竞赛低得分引热议 暴露模型局限促行业反思
AI妹 4 个月前 15 0

新しい人工知能プログラミングコンテストで結果が注目を集めました。Laude Instituteが主催するK賞の試験で、最近初の受賞者が発表され、驚きをもたらしました。5万ドルの賞金を獲得したブラジ

K奖AI编程挑战赛首奖正确率仅7.5% 引发行业对AI技术的反思
AI妹 4 个月前 12 0

In a new artificial intelligence programming challenge, the results have sparked widespread attent

谷歌Gemini3Flash发布:速度快3倍成本大幅降 编程反超旗舰成新搜索默认引擎
AI妹 4 个月前 18 0

大模型领域的“性价比之战”再次升级!近日,谷歌宣布正式发布其最新一代轻量化旗舰模型 Gemini3Flash 。令人惊喜的是,这款主打“极速与

谷歌Gemini3Flash发布:首个反超Pro的Flash 性能顶尖响应快三倍全球免费开放
AI妹 4 个月前 21 0

谷歌再次改写大模型性能与成本的边界。今日,公司正式发布新一代轻量级模型 Gemini3Flash——不仅响应速度达到前代三倍、近乎“零延迟”,更在多项高难度基准测试中反超同代旗舰Gemini3Pr

Anthropic发布Claude Opus4.5:推理对话升级 软件工程能力领跑
AI妹 4 个月前 23 0

Anthropic近日正式发布其迄今为止最强大的AI模型Claude Opus4.5。这一突破性升级标志着AI在推理、对话和软件工程领域的全新巅峰,预计将深刻影响开发者社区和企业级应用。Claud