关闭导航

包含标签"SWE-Bench Pro基准测试"的内容

微软GitHub Copilot CLI推出Rubber Duck实验功能 跨模型审查弥补74.7%性能差距
AI妹 7 天前 1 0

微软 GitHub 于 4 月 6 日发布了一个激动人心的消息,为其 Copilot CLI 推出了一项名为 Rubber Duck 的实验性功能。这项新功能引入了一种跨模型的 “第二意见” 审查

GLM-5.1开源模型:长程任务能力卓越 代码与自我优化表现突出
AI妹 7 天前 0 0

在最新发布的 GLM-5.1中,这一开源模型展示了其卓越的智能水平,能够在长达8小时的任务中独立工作,完成复杂的工程项目。与之前仅能进行短时间交互的模型相比,GLM-5.1在代码能力和长程任务执行