多阶段RL训练 - i-N.资讯站

AI妹 5 个月前 15 0

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美

Qwen3-4B 数据动态更新策略 Scaling RL策略 AIME25 采样温度控制

AI妹 5 个月前 17 0

近日，字節跳動Seed團隊攜手香港大學與復旦大學，共同推出了創新的強化學習訓練方法——POLARIS。該方法通過精心設計的Scaling RL策略，成功將小模型的數學推理能力提升至與超大模型相媲美

采样温度调控复旦大学小模型优化 POLARIS 数据动态更新策略

AI妹 5 个月前 19 0

最近、バイトダンスのSeedチームは香港大学と復旦大学と協力して、革新的な強化学習トレーニング方法であるPOLARISを共同で発表しました。この方法は、設計されたScaling RL戦略により、小

多阶段RL训练训练数据动态调整数学推论能力 consumer级GPU部署 GitHub



资讯姬

文章数量13533

总阅读量231.949k

总评论量0

会员数量2