SWE-Bench Pro基准测试

AI妹 2 个月前 4 0

微软 GitHub 于 4 月 6 日发布了一个激动人心的消息，为其 Copilot CLI 推出了一项名为 Rubber Duck 的实验性功能。这项新功能引入了一种跨模型的 “第二意见” 审查

代码准确性 Claude系列模型微软GitHub 编程效率代码质量

AI妹 2 个月前 3 0

在最新发布的 GLM-5.1中，这一开源模型展示了其卓越的智能水平，能够在长达8小时的任务中独立工作，完成复杂的工程项目。与之前仅能进行短时间交互的模型相比，GLM-5.1在代码能力和长程任务执行

Hugging Face 代码能力提升 SWE-Bench Pro基准测试 GitHub 复杂任务独立完成



资讯姬

文章数量13527

总阅读量230.286k

总评论量0

会员数量2