强化学习 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"强化学习"的内容

阿里通义实验室核心ZeroSearch框架让大模型无需真实搜索有效增强推理能力

阿里通义实验室核心ZeroSearch框架让大模型无需真实搜索有效增强推理能力

AI妹 5 个月前 15 0

In the rapid development of artificial intelligence, how to enhance the retrieval and reasoning ca

阿里巴巴通义实验室推理能力课程学习渐进式去噪训练 LLMs

查看详情

腾讯WeChat-YATT训练库发布解决多模态强化学习训练核心瓶颈

腾讯WeChat-YATT训练库发布解决多模态强化学习训练核心瓶颈

AI妹 5 个月前 18 0

騰訊近日發佈了基於Megatron-Core和SGLang/vLLM研發的大模型訓練庫WeChat-YATT（Yet Another Transformer Trainer），內部項目代號爲gCo

强化学习动态采样与生成式奖励计算效率短板分布式训练多模态场景可扩展性瓶颈 GenRM（生成式奖励模型）

查看详情

Omni-R1音频问答模型：基于Qwen2.5-Omni+GRPO优化，创MMAU新纪录文本推理关键

Omni-R1音频问答模型：基于Qwen2.5-Omni+GRPO优化，创MMAU新纪录文本推理关键

AI妹 5 个月前 16 0

最近，一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上，通过一种名为 GRPO

MMAU基准测试 AVQA-GPT Qwen2.5-Omni GRPO 内存效率

查看详情

腾讯发布WeChat-YATT训练库解决大模型强化学习多模态训练瓶颈提升效率

腾讯发布WeChat-YATT训练库解决大模型强化学习多模态训练瓶颈提升效率

AI妹 5 个月前 15 0

腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT（Yet Another Transformer Trainer），内部项目代号为gCo

串行调度机制多模态场景动态采样全员共存模式异步交互机制

查看详情

Omni-R1音頻問答模型：GRPO強化學習優化，MMAU測試創新紀錄，文本推理成主要原因

Omni-R1音頻問答模型：GRPO強化學習優化，MMAU測試創新紀錄，文本推理成主要原因

AI妹 5 个月前 14 0

最近，一項來自 MIT CSAIL、哥廷根大學、IBM 研究所等機構的研究團隊提出了一個名爲 Omni-R1的全新音頻問答模型。該模型在 Qwen2.5-Omni 的基礎上，通過一種名爲 GRPO

MMAU基准测试 Qwen2.5-Omni GRPO（Group Relative Policy Optimization） Omni-R1 VGGS-GPT

查看详情

英伟达发布Cosmos-Reason1系列模型提升AI物理推理及具身能力

英伟达发布Cosmos-Reason1系列模型提升AI物理推理及具身能力

AI妹 5 个月前 17 0

近日，英偉達發佈了其最新的 Cosmos-Reason1系列模型，旨在提升人工智能在物理常識和具身推理方面的能力。隨着人工智能在語言處理、數學及代碼生成等領域取得顯著進展，如何將這些能力擴展到物理

物理常识自动驾驶强化学习具身推理仅解码器大型语言模型

查看详情

英伟达Cosmos-Reason1模型增强AI物理与具身推理

英伟达Cosmos-Reason1模型增强AI物理与具身推理

AI妹 5 个月前 21 0

近日，英伟达发布了其最新的 Cosmos-Reason1系列模型，旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展，如何将这些能力扩展到物理

双本体系统 Cosmos-Reason1系列模型英伟达具身推理物理AI

查看详情

Mistral开源2400万参Devstral 轻量本地运行性能超闭源AI开发代理

Mistral开源2400万参Devstral 轻量本地运行性能超闭源AI开发代理

AI妹 5 个月前 14 0

法国人工智能模型制造商 Mistral 在因其最新闭源模型 Medium3受到部分开源社区批评后，迅速回归开源路线。该公司近日与开源初创公司 All Hands AI（OpenDevin 的创建者

LM Studio 铁拳分词器 Codestral25.01 Kaggle SWE-Agent

查看详情

MMaDA多模态大模型：统一架构+三大黑科技，超越GPT-4等主流模型

MMaDA多模态大模型：统一架构+三大黑科技，超越GPT-4等主流模型

AI妹 5 个月前 16 0

最近，普林斯頓大學、字節跳動、清華大學和北京大學聯手搞了個大事情，推出了一款名爲 MMaDA 的多模態大模型! 這可不是普通的 AI，它號稱能讓 AI 擁有“深度思考”的能力，還能在文本、圖像、甚

文本推理图像修复北京大学多模態大模型外推

查看详情

Meta发布J1系列模型以合成数据和GRPO算法提升AI判断能力

Meta发布J1系列模型以合成数据和GRPO算法提升AI判断能力

AI妹 5 个月前 19 0

近日，Meta 公司发布了其全新 J1系列模型，这是一项旨在提升 AI 判断能力的创新技术。通过结合强化学习和合成数据的训练方法，J1模型不仅在判断的准确性上取得显著进步，还在公平性方面表现出色。

伦理决策推理深度 WildChat 合成偏好对数据集 GRPO算法

查看详情

...

11

...



资讯姬

文章数量13535

总阅读量233.893k

总评论量0

会员数量2

本站由emlog驱动