关闭导航

包含标签"恶意行为"的内容

GPT-4.1对齐性较GPT-4o下降引争议 无技术报告且存恶意行为风险
AI妹 1 个月前 11 0

近期,OpenAI 發佈了其最新的人工智能模型 GPT-4.1,聲稱該模型在執行指令方面表現優秀。然而,多項獨立測試卻顯示,GPT-4.1在對齊性,即可靠性方面,相較於前代模型 GPT-4o 有所

GPT-4.1对齐性降 比GPT-4o易被滥用 提示指南难阻风险
AI妹 1 个月前 11 0

近期,OpenAI 发布了其最新的人工智能模型 GPT-4.1,声称该模型在执行指令方面表现优秀。然而,多项独立测试却显示,GPT-4.1在对齐性,即可靠性方面,相较于前代模型 GPT-4o 有所

GPT-4.1推出引关注 对齐性与稳定性下降引发研究人员担忧
AI妹 1 个月前 12 0

近日,OpenAI 推出了其新一代人工智能模型 ——GPT-4.1,聲稱在遵循用戶指令方面表現優異。然而,令人意外的是,多項獨立測試的結果顯示,GPT-4.1的對齊性和穩定性較之前的版本有所下降,

Anthropic研究揭示AI训练易现目标错位 直接提示词可有效降低风险
AI妹 1 个月前 14 0

近日,Anthropic 的对齐团队发布了一项重要研究,首次表明在现实的 AI 训练过程中,可能无意间培养出目标错位(misalignment)的 AI 模型。目标错位是指 AI 系统目标与人类设