关闭导航

包含标签"AI编程能力"的内容

METR研究发现SWE-bench基准显著高估AI编程能力,人工评审采纳率差距明显
AI妹 1 个月前 2 0

研究机构 METR 最新发布的一项研究显示,被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现,在基准测

重磅Claude Sonnet5:蜂群模式编程模型性能强价格低颠覆行业
AI妹 2 个月前 108 0

根据近期泄露的行业情报,Anthropic 的下一代大模型 Claude Sonnet5(内部代号 Fennec)已部署于谷歌基础设施中,发布在即。这款被视为“史上最强编程模型”的新品,不仅在性能

Kimi新一代万亿参数大模型将推出 启动API内测仅限企业认证用户申请
AI妹 2 个月前 28 0

在国内人工智能领域,备受瞩目的 Kimi 即将推出其新一代万亿参数大模型,令市场充满期待。这一消息于 1 月 20 日由快科技报道,Kimi 的开发公司 —— 月之暗面,近期已开始招募测试人员,为

中国自研DeepSeek V4预计春节前后发布 主打AI编程融合推理架构
AI妹 3 个月前 19 0

距离春节还有约一个月的时间,全球大模型领域再度将目光聚焦于中国明星初创公司 DeepSeek。据知情人士透露,DeepSeek 计划在未来几周内发布其新一代旗舰大模型 DeepSeek V4。作为

Google工程师盛赞Claude Code:1小时完成团队一年复杂系统构建引热议
AI妹 3 个月前 20 0

在AI编程工具竞争白热化的当下,一则来自Google内部的“破防”评价引发行业震动。Google Gemini API首席工程师Jaana Dogan近日在社交平台X上公开盛赞Anthropic推