采样温度调控 - i-N.资讯站

AI妹 5 个月前 17 0

近日，字節跳動Seed團隊攜手香港大學與復旦大學，共同推出了創新的強化學習訓練方法——POLARIS。該方法通過精心設計的Scaling RL策略，成功將小模型的數學推理能力提升至與超大模型相媲美

香港大学 GitHub Hugging Face POLARIS 消费级显卡部署



资讯姬

文章数量13533

总阅读量231.949k

总评论量0

会员数量2