关闭导航

包含标签"GRPO"的内容

阿里巴巴发布QwenLong-L1-32B 长上下文推理模型实现重大技术突破
AI妹 5 个月前 15 0

阿里巴巴今日正式發佈QwenLong-L1-32B,這是一款專爲長上下文推理設計的大型語言模型,標誌着AI長文本處理能力的重大突破。該模型在性能表現上超越了o3-mini和Qwen3-235B-A

阿里巴巴発表QwenLong-L1-32B 長文推論LLM技術革新で業界影響深め

(注:字数約32字、關鍵情報「阿里發布模型」「長文推論LLM」「技術革新」「業界影響」を包含)
AI妹 5 个月前 14 0

アリババは本日、長文の推論を専門とする大規模言語モデルであるQwenLong-L1-32Bを正式に発表しました。これはAIの長文処理能力において大きなブレークスルーを示しています。このモデルは、o

阿里通义Qwen团队推出SAPO强化学习新方法 提升大语言模型稳定性与性能
AI妹 6 个月前 21 0

在大语言模型(LLM)发展的浪潮中,阿里通义 Qwen 团队近日推出了一种创新的强化学习方法 ——Soft Adaptive Policy Optimization(SAPO)。这一方法的核心目标

    1 2