关闭导航

包含标签"强化学习方法"的内容

OpenAI新推理模型o3/o4-mini幻覺率高达33%/48%成行业新挑战
AI妹 1 个月前 9 0

最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,這些模型在許多方面都達到了尖端水平。然而,新的模型在 “幻覺” 問題上卻並沒有改善,反而幻覺現象比 OpenAI 之前的多個

谷歌DeepMind联合LIT AI实验室 以RLFT技术提升AI语言模型决策执行能力
AI妹 1 个月前 11 0

近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。这项

阿里通义Qwen团队推出SAPO强化学习新方法 提升大语言模型稳定性与性能
AI妹 1 个月前 15 0

在大语言模型(LLM)发展的浪潮中,阿里通义 Qwen 团队近日推出了一种创新的强化学习方法 ——Soft Adaptive Policy Optimization(SAPO)。这一方法的核心目标