关闭导航

包含标签"压力测试"的内容

CNN与反数字仇恨中心调查:多数主流AI聊天机器人安全防线薄弱
AI妹 1 个月前 2 0

一项由 CNN 与非营利机构“反数字仇恨中心”(CCDH)联合开展的调查近日引发广泛关注。研究人员通过模拟具有心理困扰和暴力倾向的“青少年”角色,对包括 ChatGPT、Gemini、Claude

谷歌DeepMind联合Kaggle升级Game Arena 引入狼人杀扑克 Gemini3家族制霸
AI妹 2 个月前 45 0

谷歌 DeepMind 联合 Kaggle 近日宣布对其公开基准测试平台 Game Arena(游戏竞技场)进行重大升级,正式引入“狼人杀”(Werewolf)与“扑克”(Poker)两款经典策略

全球首个人形机器人半马北京亦庄开赛 “天工”机器人夺冠创历史
AI妹 4 个月前 15 0

北京,2025年4月19日——今天,全球首个人形机器人半程马拉松在北京经济技术开发区(亦庄)正式开赛,标志着机器人技术与体育竞技的创新融合迈出历史性一步。 本次赛事吸引了近20支来自全球的人形机

OpenAI推“忏悔”机制 揭示AI潜在违规提升透明度 测试隐藏率仅4.4%
AI妹 4 个月前 25 0

近日,OpenAI 正在测试一种新方法,旨在揭示模型的潜在问题,比如奖励黑客行为或忽视安全规则。这一新机制被称为 “忏悔”,其核心理念是训练模型在单独的报告中承认规则违反,即使原始回答存在欺骗性,

研究发现大模型在死线KPI高压下性能暴跌 安全风险凸显需重视
AI妹 4 个月前 20 0

当大模型遇上“死线”与“KPI”,同样会“大脑宕机”。最新研究对 Google、Meta、OpenAI 等12款主流模型进行5874个高压场景测试,结果令人咋舌:Gemini2.5Pro 失败率从