GRPO - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"GRPO"的内容

英伟达开源Polar框架助力代码智能体无缝接入GRPO强化学习并提升性能

英伟达开源Polar框架助力代码智能体无缝接入GRPO强化学习并提升性能

AI妹 12 天前 2 0

5月28日，英伟达（NVIDIA）研究团队正式开源了名为 Polar 的强化学习训练框架。该框架的核心创新在于，它能够让 Codex、Claude Code、Qwen Code 等现有主流代码智能

代码智能体 Qwen3.5-4B 透明代理 Polar 轨迹重构

查看详情

美团龙猫团队开源LongCat-Video-Avatar1.5商用级数字人视频生成模型

美团龙猫团队开源LongCat-Video-Avatar1.5商用级数字人视频生成模型

AI妹 18 天前 1 0

美团龙猫大模型团队今日宣布，正式开源商用级数字人视频生成模型——LongCat-Video-Avatar1.5。该版本实现了从开源 SOTA（最高水平）向商业级实际应用的全面跨越，在唇形同步、物

多人数据 LongCat-Video-Avatar1.5 Project page 商用级 EvalTalker基准

查看详情

AI能自主推理并搜索信息！Search-R1技术使成绩提升41%

AI能自主推理并搜索信息！Search-R1技术使成绩提升41%

AI妹 5 个月前 16 0

最近、AI界で衝撃的な技術が登場しました——言語モデルが自らインターネットで情報を検索できるようになったのです！試験の点数が41％も向上しただけでなく、「推論しながら検索する」という究極の形態も実

GRPO AI検索 HotpotQA 言語モデル検索エンジン

查看详情

AI黑科技Search-R1可自主搜资料边推理边查成绩暴涨41%

AI黑科技Search-R1可自主搜资料边推理边查成绩暴涨41%

AI妹 5 个月前 15 0

最近AI圈炸出一項黑科技——讓語言模型學會自己上網查資料!不僅考試分數暴漲41%，還解鎖了"邊推理邊搜索"的究極形態。今天帶你們圍觀這場學術界的"作弊式進化"，看完保證你想給自家AI辦張網吧會員卡

论文代码奖励机制微调模型 HotpotQA

查看详情

昆仑万维开源Skywork-R1V2.0 多模态推理领跑中文场景刷新开源SOTA

昆仑万维开源Skywork-R1V2.0 多模态推理领跑中文场景刷新开源SOTA

AI妹 5 个月前 16 0

4月24日，崑崙萬維宣佈正式開源其多模態推理模型Skywork-R1V2.0（以下簡稱R1V2.0）。這一升級版本在視覺與文本推理能力上均實現了顯著提升，特別是在高考理科難題的深度推理和通用任務場

AI解题助手视觉文本推理混合偏好优化(MPO) 昆仑万维 GRPO

查看详情

昆仑万维开源Skywork-R1V2.0 多模态推理性能提升助力AGI与生态发展

昆仑万维开源Skywork-R1V2.0 多模态推理性能提升助力AGI与生态发展

AI妹 5 个月前 15 0

On April 24th, Kunlun Wanwei announced the official open-sourcing of its multi-modal reasoning mod

开源 Gaokao科学问题推理 GitHub Skywork-R1V2.0 MathVision

查看详情

昆仑万维开源Skywork-R1V2.0 多模态模型性能跃升引领中文场景

昆仑万维开源Skywork-R1V2.0 多模态模型性能跃升引领中文场景

AI妹 5 个月前 15 0

4月24日、昆侖万維は、多様なモダリティ推論モデルSkywork-R1V2.0（以下R1V2.0）の正式オープンソース化を発表しました。このアップグレード版は、視覚とテキストの推論能力の両方を大幅

MPO Skywork-VL Reward Skywork-R1V2.0 Hugging Face 技術レポート

查看详情

Omni-R1音频问答模型：基于Qwen2.5-Omni+GRPO优化，创MMAU新纪录文本推理关键

Omni-R1音频问答模型：基于Qwen2.5-Omni+GRPO优化，创MMAU新纪录文本推理关键

AI妹 5 个月前 15 0

最近，一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上，通过一种名为 GRPO

内存效率 ChatGPT生成数据集强化学习 VGGS-GPT GRPO

查看详情

Omni-R1音声问答模型：GRPO优化创MMAU新纪录，文本推理成性能提升关键

Omni-R1音声问答模型：GRPO优化创MMAU新纪录，文本推理成性能提升关键

AI妹 5 个月前 14 0

最近、MIT CSAIL、ゲッティンゲン大学、IBM研究所など複数の機関からなる研究チームが、新たな音声質問応答モデル「Omni-R1」を発表しました。このモデルは、Qwen2.5-Omniをベー

VGGS-GPT GPUメモリ効率 AVQA-GPT 音声質問応答モデルグループ相対ポリシー最適化

查看详情

Meta新J1系列模型：革新技术提升AI判断能力且表现卓越

Meta新J1系列模型：革新技术提升AI判断能力且表现卓越

AI妹 5 个月前 16 0

最近、Meta社は新しいJ1シリーズのモデルを発表しました。これはAIの判断能力を向上させるための革新的な技術です。強化学習と合成データを使ったトレーニング手法を取り入れることで、J1モデルは判断

LLM 強化学習倫理的意思決定 J1モデル合成データ

查看详情

1



资讯姬

文章数量13527

总阅读量227.787k

总评论量0

会员数量2

本站由emlog驱动