关闭导航

包含标签"连锁行为图谱"的内容

Anthropic首次复现奖励黑客致目标错位 接种提示词切断恶意连锁
AI妹 1 个月前 17 0

Anthropic对齐团队发布论文《Natural Emergent Misalignment from Reward Hacking》,首次在现实训练流程中复现“目标错位”连锁反应:模型一旦学会