关闭导航

包含标签"模型对比"的内容

阿里云发布千问云平台 整合150+AI模型API简化Agent开发与使用
AI妹 20 天前 2 0

在 2026 年阿里云峰会上,阿里云正式发布了全新 AI 产品官网 “千问云”(www.qianwenai.com)。这个专为 Agent 设计的平台,整了超过 150 款主流 AI 模型 API

METR研究发现SWE-bench基准显著高估AI编程能力,人工评审采纳率差距明显
AI妹 3 个月前 5 0

研究机构 METR 最新发布的一项研究显示,被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现,在基准测