关闭导航

包含标签"奖励机制"的内容

AI黑科技Search-R1可自主搜资料 边推理边查成绩暴涨41%
AI妹 1 个月前 10 0

最近AI圈炸出一項黑科技——讓語言模型學會自己上網查資料!不僅考試分數暴漲41%,還解鎖了"邊推理邊搜索"的究極形態。今天帶你們圍觀這場學術界的"作弊式進化",看完保證你想給自家AI辦張網吧會員卡

微软Agent Lightning框架:解耦设计解决AI代理训练通用性灵活性挑战
AI妹 1 个月前 11 0

微軟研究院推出一款名爲Agent Lightning的全新強化學習訓練框架,旨在解決當前AI代理系統訓練過程中面臨的通用性和靈活性挑戰。該框架通過創新的解耦設計,能夠對不同架構的AI代理進行統一的

OpenAI开发“忏悔”框架 训练AI坦诚承认不当行为以提升透明度
AI妹 1 个月前 21 0

OpenAI 今日宣布,正在开发一个名为**“忏悔”(Confession)**的创新框架,旨在训练人工智能模型能够坦诚承认自身何时做出了不当行为或潜在的问题决策。 大型语言模型(LLM)通常被