作弊行为 - i-N.资讯站

AI妹 1 个月前 3 0

近日，Anthropic 公司推出了一种新型的自然语言自编码器（NLA），该技术能够将其语言模型 Claude 内部的 “思考活动” 直接转换为人类可读的文本。这一创新将为模型的可解释性打开新的大

作弊行为可解释性激活重构器（AR）安全测试 Claude

AI妹 5 个月前 16 0

最近，有一些 ChatGPT 的用户注意到，他们的工具菜单中新增了一项名为 “一起学习” 的功能。这一变化引发了广泛的讨论，似乎预示着 ChatGPT 正在朝着成为更强大教育工具的方向迈进。据

"一起学习"功能教育界互动式学习 OpenAI 作弊行为

AI妹 6 个月前 22 0

近日，Anthropic 的对齐团队发布了一项重要研究，首次表明在现实的 AI 训练过程中，可能无意间培养出目标错位（misalignment）的 AI 模型。目标错位是指 AI 系统目标与人类设

作弊行为 Claude模型恶意行为 AI安全研究 AI模型目标错位



资讯姬

文章数量13565

总阅读量243.558k

总评论量0

会员数量2