关闭导航

包含标签"采样温度控制"的内容

字节跳动Seed团队联合港大复旦推出POLARIS 提升小模型数学推理媲美大模型
AI妹 1 个月前 9 0

近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美