采样温度控制 - i-N.资讯站

AI妹 5 个月前 16 0

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美

数据动态更新策略采样温度控制多阶段RL训练 POLARIS 消费级显卡



资讯姬

文章数量13543

总阅读量238.071k

总评论量0

会员数量2