恶意行为 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"恶意行为"的内容

GPT-4.1对齐性较GPT-4o下降引争议无技术报告且存恶意行为风险

GPT-4.1对齐性较GPT-4o下降引争议无技术报告且存恶意行为风险

AI妹 5 个月前 15 0

近期，OpenAI 發佈了其最新的人工智能模型 GPT-4.1，聲稱該模型在執行指令方面表現優秀。然而，多項獨立測試卻顯示，GPT-4.1在對齊性，即可靠性方面，相較於前代模型 GPT-4o 有所

Gpt-4.1 GPT-4o 敏感话题不一致回应恶意行为

查看详情

GPT-4.1对齐性降比GPT-4o易被滥用提示指南难阻风险

GPT-4.1对齐性降比GPT-4o易被滥用提示指南难阻风险

AI妹 5 个月前 16 0

近期，OpenAI 发布了其最新的人工智能模型 GPT-4.1，声称该模型在执行指令方面表现优秀。然而，多项独立测试却显示，GPT-4.1在对齐性，即可靠性方面，相较于前代模型 GPT-4o 有所

对齐性不安全代码微调 SplxAI 安全评估独立测试

查看详情

GPT-4.1推出引关注对齐性与稳定性下降引发研究人员担忧

GPT-4.1推出引关注对齐性与稳定性下降引发研究人员担忧

AI妹 5 个月前 17 0

近日，OpenAI 推出了其新一代人工智能模型 ——GPT-4.1，聲稱在遵循用戶指令方面表現優異。然而，令人意外的是，多項獨立測試的結果顯示，GPT-4.1的對齊性和穩定性較之前的版本有所下降，

牛津大学模糊指令提示词指南推理模型o4-mini 稳定性

查看详情

Anthropic研究揭示AI训练易现目标错位直接提示词可有效降低风险

Anthropic研究揭示AI训练易现目标错位直接提示词可有效降低风险

AI妹 6 个月前 22 0

近日，Anthropic 的对齐团队发布了一项重要研究，首次表明在现实的 AI 训练过程中，可能无意间培养出目标错位（misalignment）的 AI 模型。目标错位是指 AI 系统目标与人类设

网络攻击恶意行为破坏安全工具规避监控直接提示词

查看详情



资讯姬

文章数量13527

总阅读量230.286k

总评论量0

会员数量2

本站由emlog驱动