GRPO算法 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"GRPO算法"的内容

港中大团队提出SLIM框架动态管理智能体技能赋能产业化

港中大团队提出SLIM框架动态管理智能体技能赋能产业化

AI妹 8 天前 2 0

大模型智能体（LLM Agent）正在加速从“会聊天”向“会做事”的连续决策阶段演进，但如何高效管理智能体的外部能力正成为全行业亟待攻克的新课题。近日，香港中文大学团队

产业化应用大模型智能体 SLIM框架 GRPO算法留一法

查看详情

AI自主上网查资料 Search-R1技术助成绩暴涨41%

AI自主上网查资料 Search-R1技术助成绩暴涨41%

AI妹 5 个月前 14 0

最近AI圈炸出一项黑科技——让语言模型学会自己上网查资料!不仅考试分数暴涨41%，还解锁了"边推理边搜索"的究极形态。今天带你们围观这场学术界的"作弊式进化"，看完保证你想给自家AI办张网吧会员卡

多轮推理 Search-R1 论文地址通关奖励机制 AI作弊式进化

查看详情

Meta发布J1系列模型以合成数据和GRPO算法提升AI判断能力

Meta发布J1系列模型以合成数据和GRPO算法提升AI判断能力

AI妹 5 个月前 19 0

近日，Meta 公司发布了其全新 J1系列模型，这是一项旨在提升 AI 判断能力的创新技术。通过结合强化学习和合成数据的训练方法，J1模型不仅在判断的准确性上取得显著进步，还在公平性方面表现出色。

合成数据 LLM-as-a-Judge 复杂推理任务 PPE基准测试 GRPO算法

查看详情

Meta发布J1系列模型创新训练方法提升AI判断能力表现优异

Meta发布J1系列模型创新训练方法提升AI判断能力表现优异

AI妹 5 个月前 14 0

近日，Meta 公司發佈了其全新 J1系列模型，這是一項旨在提升 AI 判斷能力的創新技術。通過結合強化學習和合成數據的訓練方法，J1模型不僅在判斷的準確性上取得顯著進步，還在公平性方面表現出色。

Meta 合成数据训练 Group Relative Policy Optimization PPE基准测试主观任务

查看详情

阿里发布QwenLong-L1-32B 长文本推理模型实现重大突破

阿里发布QwenLong-L1-32B 长文本推理模型实现重大突破

AI妹 5 个月前 17 0

阿里巴巴今日正式发布QwenLong-L1-32B，这是一款专为长上下文推理设计的大型语言模型，标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3-mini和Qwen3-235B-A

o3-mini 文档分析训练数据集产业化进程 QwenLong-L1框架

查看详情

通义实验室开源VRAG-RL：视觉感知驱动多模态RAG推理框架发布

通义实验室开源VRAG-RL：视觉感知驱动多模态RAG推理框架发布

AI妹 5 个月前 14 0

近日，通義實驗室自然語言智能團隊正式發佈並開源了VRAG-RL——一款視覺感知驅動的多模態RAG推理框架，旨在解決在真實業務場景中，AI如何從圖像、表格、設計稿等視覺語言中檢索關鍵信息並進行精細化

多模态RAG推理框架细粒度奖励机制多专家采样策略视觉语言基准数据集 VRAG-RL

查看详情

通义实验室开源VRAG-RL框架解决视觉多模态RAG推理难题

通义实验室开源VRAG-RL框架解决视觉多模态RAG推理难题

AI妹 5 个月前 15 0

近日，通义实验室自然语言智能团队正式发布并开源了VRAG-RL——一款视觉感知驱动的多模态RAG推理框架，旨在解决在真实业务场景中，AI如何从图像、表格、设计稿等视觉语言中检索关键信息并进行精细化

GRPO算法图表识别本地部署搜索引擎单跳推理检索与推理协同优化

查看详情

ART开源强化学习框架助力AI智能体多场景高效训练与应用

ART开源强化学习框架助力AI智能体多场景高效训练与应用

AI妹 5 个月前 15 0

人工知能技術の急速な発展により、スマートエージェントのトレーニングに新たな機会がもたらされています。最近、ART（Agent Reinforcement Trainer）というオープンソースの強化

客户端服务器分离架构 Qwen3 Llama 开源 Python

查看详情



资讯姬

文章数量13535

总阅读量233.892k

总评论量0

会员数量2

本站由emlog驱动