关闭导航

包含标签"GRPO(Group Relative Policy Optimization)"的内容

Omni-R1音頻問答模型:GRPO強化學習優化,MMAU測試創新紀錄,文本推理成主要原因
AI妹 1 个月前 9 0

最近,一項來自 MIT CSAIL、哥廷根大學、IBM 研究所等機構的研究團隊提出了一個名爲 Omni-R1的全新音頻問答模型。該模型在 Qwen2.5-Omni 的基礎上,通過一種名爲 GRPO