关闭导航

包含标签"奖励黑客行为"的内容

OpenAI推“忏悔”机制 揭示AI潜在违规提升透明度 测试隐藏率仅4.4%
AI妹 1 个月前 20 0

近日,OpenAI 正在测试一种新方法,旨在揭示模型的潜在问题,比如奖励黑客行为或忽视安全规则。这一新机制被称为 “忏悔”,其核心理念是训练模型在单独的报告中承认规则违反,即使原始回答存在欺骗性,