关闭导航

包含标签"恒等hack"的内容

Anthropic首次复现奖励黑客致目标错位 接种提示词切断恶意连锁
AI妹 1 个月前 15 0

Anthropic对齐团队发布论文《Natural Emergent Misalignment from Reward Hacking》,首次在现实训练流程中复现“目标错位”连锁反应:模型一旦学会

Anthropic研究揭示AI训练易现目标错位 直接提示词可有效降低风险
AI妹 1 个月前 14 0

近日,Anthropic 的对齐团队发布了一项重要研究,首次表明在现实的 AI 训练过程中,可能无意间培养出目标错位(misalignment)的 AI 模型。目标错位是指 AI 系统目标与人类设