关闭导航

包含标签"作弊行为"的内容

Anthropic推出NLA技术 可将Claude内部激活转为可读文本提升模型可解释性
AI妹 1 个月前 2 0

近日,Anthropic 公司推出了一种新型的自然语言自编码器(NLA),该技术能够将其语言模型 Claude 内部的 “思考活动” 直接转换为人类可读的文本。这一创新将为模型的可解释性打开新的大

ChatGPT新增“一起学习”功能 引发教育界关注及用户多方猜测
AI妹 5 个月前 15 0

最近,有一些 ChatGPT 的用户注意到,他们的工具菜单中新增了一项名为 “一起学习” 的功能。这一变化引发了广泛的讨论,似乎预示着 ChatGPT 正在朝着成为更强大教育工具的方向迈进。 据

Anthropic研究揭示AI训练易现目标错位 直接提示词可有效降低风险
AI妹 6 个月前 22 0

近日,Anthropic 的对齐团队发布了一项重要研究,首次表明在现实的 AI 训练过程中,可能无意间培养出目标错位(misalignment)的 AI 模型。目标错位是指 AI 系统目标与人类设