关闭导航

包含标签"广义相对策略优化"的内容

英伟达开源Polar框架 助力代码智能体无缝接入GRPO强化学习并提升性能
AI妹 12 天前 2 0

5月28日,英伟达(NVIDIA)研究团队正式开源了名为 Polar 的强化学习训练框架。该框架的核心创新在于,它能够让 Codex、Claude Code、Qwen Code 等现有主流代码智能