关闭导航

包含标签"纯强化学习"的内容

阿里通义实验室发布FIPO算法 突破大模型推理关键瓶颈提升逻辑能力
AI妹 7 天前 2 0

阿里通义实验室智能计算团队今日正式对外发布了大模型后训练领域的新型算法——FIPO(Future-KL Influenced Policy Optimization)。该算法通过引入创新的“Fut

Liquid AI发布LFM2-2.6B-Exp 26亿参模型性能超百亿级开源推动边缘AI
AI妹 3 个月前 16 0

圣诞节当天,知名边缘AI初创公司Liquid AI正式发布了其最新实验性模型LFM2-2.6B-Exp,这一仅有2.6B(26亿)参数的小型开源模型,在多项关键基准测试中表现出色,尤其在指令跟随能

DeepSeek-R1更新:代码推理能力提升 开源对标o1引行业关注
AI妹 3 个月前 15 0

 DeepSeek 公司近日對其高性能推理 AI 模型 DeepSeek-R1進行了重大更新,顯著提升了模型在代碼生成和複雜推理任務中的表現,引發人工智能領域的廣泛關注。以下基於公開信息