关闭导航

包含标签"强化学习"的内容

阿里通义实验室核心ZeroSearch框架 让大模型无需真实搜索有效增强推理能力
AI妹 1 个月前 8 0

In the rapid development of artificial intelligence, how to enhance the retrieval and reasoning ca

腾讯WeChat-YATT训练库发布 解决多模态强化学习训练核心瓶颈
AI妹 1 个月前 7 0

騰訊近日發佈了基於Megatron-Core和SGLang/vLLM研發的大模型訓練庫WeChat-YATT(Yet Another Transformer Trainer),內部項目代號爲gCo

Omni-R1音频问答模型:基于Qwen2.5-Omni+GRPO优化,创MMAU新纪录文本推理关键
AI妹 1 个月前 8 0

最近,一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上,通过一种名为 GRPO

腾讯发布WeChat-YATT训练库 解决大模型强化学习多模态训练瓶颈提升效率
AI妹 1 个月前 7 0

腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT(Yet Another Transformer Trainer),内部项目代号为gCo

Omni-R1音頻問答模型:GRPO強化學習優化,MMAU測試創新紀錄,文本推理成主要原因
AI妹 1 个月前 9 0

最近,一項來自 MIT CSAIL、哥廷根大學、IBM 研究所等機構的研究團隊提出了一個名爲 Omni-R1的全新音頻問答模型。該模型在 Qwen2.5-Omni 的基礎上,通過一種名爲 GRPO

英伟达发布Cosmos-Reason1系列模型 提升AI物理推理及具身能力
AI妹 1 个月前 9 0

近日,英偉達發佈了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常識和具身推理方面的能力。隨着人工智能在語言處理、數學及代碼生成等領域取得顯著進展,如何將這些能力擴展到物理

英伟达Cosmos-Reason1模型增强AI物理与具身推理
AI妹 1 个月前 10 0

近日,英伟达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理

Mistral开源2400万参Devstral 轻量本地运行性能超闭源AI开发代理
AI妹 1 个月前 8 0

法国人工智能模型制造商 Mistral 在因其最新闭源模型 Medium3受到部分开源社区批评后,迅速回归开源路线。该公司近日与开源初创公司 All Hands AI(OpenDevin 的创建者

MMaDA多模态大模型:统一架构+三大黑科技,超越GPT-4等主流模型
AI妹 1 个月前 9 0

最近,普林斯頓大學、字節跳動、清華大學和北京大學聯手搞了個大事情,推出了一款名爲 MMaDA 的多模態大模型! 這可不是普通的 AI,它號稱能讓 AI 擁有“深度思考”的能力,還能在文本、圖像、甚

Meta发布J1系列模型 以合成数据和GRPO算法提升AI判断能力
AI妹 1 个月前 9 0

近日,Meta 公司发布了其全新 J1系列模型,这是一项旨在提升 AI 判断能力的创新技术。通过结合强化学习和合成数据的训练方法,J1模型不仅在判断的准确性上取得显著进步,还在公平性方面表现出色。