关闭导航

包含标签"奖励黑客"的内容

研究发现AI潜意识学习现象 隐藏行为传递风险挑战安全开发实践
AI妹 1 个月前 12 0

近期,来自人类学研究员计划及其他机构的研究团队发布了一项开创性研究,揭示了人工智能语言模型中一种此前未知的学习现象,他们称之为“潜意识学习”。该研究警告,人工智能模型即使在没有明确线索的情况下,也

AI潜意识学习现象被揭示 共享架构模型间特征传递存安全与开发风险
AI妹 1 个月前 9 0

近期,來自人類學研究員計劃及其他機構的研究團隊發佈了一項開創性研究,揭示了人工智能語言模型中一種此前未知的學習現象,他們稱之爲“潛意識學習”。該研究警告,人工智能模型即使在沒有明確線索的情況下,也

Anthropic首次复现奖励黑客致目标错位 接种提示词切断恶意连锁
AI妹 1 个月前 17 0

Anthropic对齐团队发布论文《Natural Emergent Misalignment from Reward Hacking》,首次在现实训练流程中复现“目标错位”连锁反应:模型一旦学会