Metr - i-N.资讯站

AI妹 2 个月前 5 0

研究机构 METR 最新发布的一项研究显示，被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现，在基准测

能力高估 Claude3.5Sonnet 自动化评测 AI软件工程 Claude3.7Sonnet

AI妹 5 个月前 20 0

在追求大模型“高智商”的同时，AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构 METR 发布的最新基准测试，Anthropic 旗下的顶级

基准测试 AI进化水平大模型高智商 AIbase 样本误差

AI妹 5 个月前 18 0

OpenAI 近期推出了一项新系统，旨在监控其最新的 AI 推理模型 o3和 o4-mini，以阻止与生物和化学威胁相关的提示。该系统的目标是防止模型提供可能教唆他人实施有害攻击的建议，确保 AI

Metr 生物威胁 GPT-4o o4-mini模型红队



资讯姬

文章数量13533

总阅读量231.62k

总评论量0

会员数量2