关闭导航

包含标签"邪恶向量"的内容

Anthropic个性向量技术:监控控制语言模型个性并预防不良特征
AI妹 1 个月前 10 0

Anthropic普近日宣佈了一項新技術 —— 個性向量,旨在監測、控制和預防大型語言模型中的特定個性特徵。隨着語言模型在實際應用中的廣泛使用,部分模型表現出不可預測的個性特徵,比如 ChatGP