SWE-bench - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"SWE-bench"的内容

阿里云计算Qwen3-Coder AI编程大模型全面开源性能达开源顶尖水平

阿里云计算Qwen3-Coder AI编程大模型全面开源性能达开源顶尖水平

AI妹 5 个月前 37 0

7月23日、アリババクラウドは最新のAIプログラミング大規模モデルであるQwen3-Coderが全面的にオープンソース化されたことを正式に発表しました。この取り組みは、インテリジェントなプログラミ

AIプログラミング大規模モデル Agentic Browser-Use Agentic Coding 通義チーム 256Kコンテキスト

查看详情

阿里云开源Qwen3-Coder AI编程大模型达开源顶尖水平

阿里云开源Qwen3-Coder AI编程大模型达开源顶尖水平

AI妹 5 个月前 45 0

7月23日，阿里云正式宣布其最新的AI编程大模型Qwen3-Coder全面开源，这一举措迅速在智能编程领域掀起热潮。Qwen3-Coder凭借其卓越的代码生成和Agent能力，在Agentic C

Qwen3-Coder 执行驱动强化学习 HuggingFace Qwen Code 智能编程

查看详情

阿里全新开源AI编程模型Qwen3-Coder：MoE架构性能媲美顶尖且全球开发者可用

阿里全新开源AI编程模型Qwen3-Coder：MoE架构性能媲美顶尖且全球开发者可用

AI妹 5 个月前 55 0

7月23日的清晨，阿里巴巴正式推出了其全新的開源 AI 編程模型 ——Qwen3-Coder。這款模型標誌着千問系列中的一次重大突破，採用了混合專家（MoE）架構，擁有高達480億的參數量，其中可

强化学习代码能力 3D物理模拟 Claude4 480亿参数

查看详情

K奖大赛巴西程序员7.5%正确率获奖敲响AI领域现状警钟

K奖大赛巴西程序员7.5%正确率获奖敲响AI领域现状警钟

AI妹 5 个月前 18 0

在一個新的人工智能編程挑戰賽中，結果引發了廣泛關注。由 Laude Institute 主辦的 K 獎大賽於最近公佈了首位獲獎者，令人驚訝的是，獲得5萬美元獎金的巴西程序員愛德華多・霍查・德・安德

GitHub Laude Institute 基准测试 Midjourney AI评估标准

查看详情

K奖巴西程序员7.5%正确率获5万奖金暴露AI编程模型当前局限

K奖巴西程序员7.5%正确率获5万奖金暴露AI编程模型当前局限

AI妹 5 个月前 18 0

在一个新的人工智能编程挑战赛中，结果引发了广泛关注。由 Laude Institute 主办的 K 奖大赛于最近公布了首位获奖者，令人惊讶的是，获得5万美元奖金的巴西程序员爱德华多・霍查・德・安德

训练集污染爱德华多・霍查・德・安德拉德无污染测试 AI评估标准 Midjourney

查看详情

K奖新基准AI编程竞赛低得分引热议暴露模型局限促行业反思

K奖新基准AI编程竞赛低得分引热议暴露模型局限促行业反思

AI妹 5 个月前 18 0

新しい人工知能プログラミングコンテストで結果が注目を集めました。Laude Instituteが主催するK賞の試験で、最近初の受賞者が発表され、驚きをもたらしました。5万ドルの賞金を獲得したブラジ

AIモデルの限界人工知能プログラミングコンテストプリンストン大学 Databricks Perplexity

查看详情

K奖AI编程挑战赛首奖正确率仅7.5% 引发行业对AI技术的反思

K奖AI编程挑战赛首奖正确率仅7.5% 引发行业对AI技术的反思

AI妹 5 个月前 13 0

In a new artificial intelligence programming challenge, the results have sparked widespread attent

GitHub Midjourney Princeton University Andy Konwinski 编程问题

查看详情

谷歌Gemini3Flash发布：速度快3倍成本大幅降编程反超旗舰成新搜索默认引擎

谷歌Gemini3Flash发布：速度快3倍成本大幅降编程反超旗舰成新搜索默认引擎

AI妹 5 个月前 21 0

大模型领域的“性价比之战”再次升级!近日，谷歌宣布正式发布其最新一代轻量化旗舰模型 Gemini3Flash 。令人惊喜的是，这款主打“极速与

氛围编程谷歌搜索动态推理控制 SWE-bench 性价比之战

查看详情

谷歌Gemini3Flash发布：首个反超Pro的Flash 性能顶尖响应快三倍全球免费开放

谷歌Gemini3Flash发布：首个反超Pro的Flash 性能顶尖响应快三倍全球免费开放

AI妹 5 个月前 24 0

谷歌再次改写大模型性能与成本的边界。今日，公司正式发布新一代轻量级模型 Gemini3Flash——不仅响应速度达到前代三倍、近乎“零延迟”，更在多项高难度基准测试中反超同代旗舰Gemini3Pr

专业模式知识蒸馏响应速度三倍 LMArena 零延迟

查看详情

Anthropic发布Claude Opus4.5：推理对话升级软件工程能力领跑

Anthropic发布Claude Opus4.5：推理对话升级软件工程能力领跑

AI妹 6 个月前 27 0

Anthropic近日正式发布其迄今为止最强大的AI模型Claude Opus4.5。这一突破性升级标志着AI在推理、对话和软件工程领域的全新巅峰，预计将深刻影响开发者社区和企业级应用。Claud

科研文献综述 Plan Mode 高精度决策领域自愈机制创意协作

查看详情

5



资讯姬

文章数量13547

总阅读量240.887k

总评论量0

会员数量2

本站由emlog驱动