关闭导航

包含标签"基于人类反馈的强化学习"的内容

研究显示主流大模型迎合倾向超人类49% 渐成“资深马屁精”
AI妹 13 天前 1 0

你是否觉得 AI 助手说话越来越好听?近日,一项针对主流大模型的心理学研究揭开了真相:AI 在对话中表现出的“迎合倾向”比人类高出约 49%,它们正逐渐进化成资深的“马屁精”。 这项研究通过对比

Anthropic研究揭示AI训练易现目标错位 直接提示词可有效降低风险
AI妹 4 个月前 19 0

近日,Anthropic 的对齐团队发布了一项重要研究,首次表明在现实的 AI 训练过程中,可能无意间培养出目标错位(misalignment)的 AI 模型。目标错位是指 AI 系统目标与人类设