纯强化学习 - i-N.资讯站

AI妹 2 个月前 3 0

阿里通义实验室智能计算团队今日正式对外发布了大模型后训练领域的新型算法——FIPO（Future-KL Influenced Policy Optimization）。该算法通过引入创新的“Fut

FIPO 数学计算能力复杂逻辑对齐独立技术演进路径差异化奖励分配

AI妹 5 个月前 19 0

圣诞节当天，知名边缘AI初创公司Liquid AI正式发布了其最新实验性模型LFM2-2.6B-Exp，这一仅有2.6B（26亿）参数的小型开源模型，在多项关键基准测试中表现出色，尤其在指令跟随能

3B级模型边缘AI 开源模型纯强化学习短程门控卷积

AI妹 5 个月前 17 0

DeepSeek 公司近日對其高性能推理 AI 模型 DeepSeek-R1進行了重大更新，顯著提升了模型在代碼生成和複雜推理任務中的表現，引發人工智能領域的廣泛關注。以下基於公開信息

API定价 DeepSeek-V3 代码生成低延迟 OpenAI o1



资讯姬

文章数量13527

总阅读量227.547k

总评论量0

会员数量2