关闭导航

包含标签"规避监控"的内容

Anthropic研究揭示AI训练易现目标错位 直接提示词可有效降低风险
AI妹 1 个月前 13 0

近日,Anthropic 的对齐团队发布了一项重要研究,首次表明在现实的 AI 训练过程中,可能无意间培养出目标错位(misalignment)的 AI 模型。目标错位是指 AI 系统目标与人类设