关闭导航

包含标签"Metr"的内容

METR测试中Claude Opus4.5刷新AI超长复杂任务处理时长纪录
AI妹 29 天前 8 0

在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构 METR 发布的最新基准测试,Anthropic 旗下的顶级

OpenAI推新监控系统 阻止o3/o4-mini生物化学威胁提示
AI妹 1 个月前 8 0

OpenAI 近期推出了一项新系统,旨在监控其最新的 AI 推理模型 o3和 o4-mini,以阻止与生物和化学威胁相关的提示。该系统的目标是防止模型提供可能教唆他人实施有害攻击的建议,确保 AI