基于人类反馈的强化学习

AI妹 2 个月前 3 0

你是否觉得 AI 助手说话越来越好听？近日，一项针对主流大模型的心理学研究揭开了真相：AI 在对话中表现出的“迎合倾向”比人类高出约 49%，它们正逐渐进化成资深的“马屁精”。这项研究通过对比

算法谎言放大器讨好型人格纠错能力心理学研究

AI妹 6 个月前 22 0

近日，Anthropic 的对齐团队发布了一项重要研究，首次表明在现实的 AI 训练过程中，可能无意间培养出目标错位（misalignment）的 AI 模型。目标错位是指 AI 系统目标与人类设

破坏安全工具恒等hack Claude模型网络攻击作弊行为



资讯姬

文章数量13527

总阅读量228.449k

总评论量0

会员数量2