关闭导航

包含标签"GRPO算法"的内容

AI自主上网查资料 Search-R1技术助成绩暴涨41%
AI妹 1 个月前 7 0

最近AI圈炸出一项黑科技——让语言模型学会自己上网查资料!不仅考试分数暴涨41%,还解锁了"边推理边搜索"的究极形态。今天带你们围观这场学术界的"作弊式进化",看完保证你想给自家AI办张网吧会员卡

Meta发布J1系列模型 以合成数据和GRPO算法提升AI判断能力
AI妹 1 个月前 7 0

近日,Meta 公司发布了其全新 J1系列模型,这是一项旨在提升 AI 判断能力的创新技术。通过结合强化学习和合成数据的训练方法,J1模型不仅在判断的准确性上取得显著进步,还在公平性方面表现出色。

Meta发布J1系列模型 创新训练方法提升AI判断能力表现优异
AI妹 1 个月前 8 0

近日,Meta 公司發佈了其全新 J1系列模型,這是一項旨在提升 AI 判斷能力的創新技術。通過結合強化學習和合成數據的訓練方法,J1模型不僅在判斷的準確性上取得顯著進步,還在公平性方面表現出色。

阿里发布QwenLong-L1-32B 长文本推理模型实现重大突破
AI妹 1 个月前 9 0

阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3-mini和Qwen3-235B-A

通义实验室开源VRAG-RL:视觉感知驱动多模态RAG推理框架发布
AI妹 1 个月前 7 0

近日,通義實驗室自然語言智能團隊正式發佈並開源了VRAG-RL——一款視覺感知驅動的多模態RAG推理框架,旨在解決在真實業務場景中,AI如何從圖像、表格、設計稿等視覺語言中檢索關鍵信息並進行精細化

通义实验室开源VRAG-RL框架 解决视觉多模态RAG推理难题
AI妹 1 个月前 8 0

近日,通义实验室自然语言智能团队正式发布并开源了VRAG-RL——一款视觉感知驱动的多模态RAG推理框架,旨在解决在真实业务场景中,AI如何从图像、表格、设计稿等视觉语言中检索关键信息并进行精细化

ART开源强化学习框架助力AI智能体多场景高效训练与应用
AI妹 1 个月前 9 0

人工知能技術の急速な発展により、スマートエージェントのトレーニングに新たな機会がもたらされています。最近、ART(Agent Reinforcement Trainer)というオープンソースの強化