关闭导航

包含标签"GSPO"的内容

阿里通义Qwen团队推出SAPO强化学习新方法 提升大语言模型稳定性与性能
AI妹 1 个月前 15 0

在大语言模型(LLM)发展的浪潮中,阿里通义 Qwen 团队近日推出了一种创新的强化学习方法 ——Soft Adaptive Policy Optimization(SAPO)。这一方法的核心目标