研究机构 METR 最新发布的一项研究显示,被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现,在基准测
根据近期泄露的行业情报,Anthropic 的下一代大模型 Claude Sonnet5(内部代号 Fennec)已部署于谷歌基础设施中,发布在即。这款被视为“史上最强编程模型”的新品,不仅在性能
在国内人工智能领域,备受瞩目的 Kimi 即将推出其新一代万亿参数大模型,令市场充满期待。这一消息于 1 月 20 日由快科技报道,Kimi 的开发公司 —— 月之暗面,近期已开始招募测试人员,为
距离春节还有约一个月的时间,全球大模型领域再度将目光聚焦于中国明星初创公司 DeepSeek。据知情人士透露,DeepSeek 计划在未来几周内发布其新一代旗舰大模型 DeepSeek V4。作为
在AI编程工具竞争白热化的当下,一则来自Google内部的“破防”评价引发行业震动。Google Gemini API首席工程师Jaana Dogan近日在社交平台X上公开盛赞Anthropic推