关闭导航

包含标签"强化学习"的内容

OpenAI发布云端代码助手Codex 助力开发者提升编码效率
AI妹 4 个月前 12 0

OpenAI 近日在其官網上發佈了一個全新的雲端代碼助手 ——Codex。這款強大的工具旨在爲開發人員提供更高效的編碼體驗,能夠自動執行多種編碼相關任務,讓程序員從繁瑣的細節中解放出來。 Cod

阿里Qwen推出WorldPM系列偏好模型 开源赋能全球开发者
AI妹 4 个月前 15 0

阿里巴巴旗下Qwen团队宣布推出全新偏好建模模型系列——WorldPM,包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和

阿里Qwen推出WorldPM偏好模型系列 开源赋能全球开发者
AI妹 4 个月前 14 0

阿里巴巴旗下Qwen團隊宣佈推出全新偏好建模模型系列——WorldPM,包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和

阿里通义ZeroSearch:模拟搜索无需真实引擎提升大模型推理能力
AI妹 4 个月前 15 0

在人工智能的迅速发展中,如何提升大语言模型(LLM)的检索和推理能力成为研究的热门话题。近日,阿里通义实验室提出了一个名为 “ZeroSearch” 的新框架,它能够使大型语言模型自己模拟搜索引擎

阿里通义实验室核心ZeroSearch框架 让大模型无需真实搜索有效增强推理能力
AI妹 4 个月前 12 0

In the rapid development of artificial intelligence, how to enhance the retrieval and reasoning ca

腾讯WeChat-YATT训练库发布 解决多模态强化学习训练核心瓶颈
AI妹 4 个月前 15 0

騰訊近日發佈了基於Megatron-Core和SGLang/vLLM研發的大模型訓練庫WeChat-YATT(Yet Another Transformer Trainer),內部項目代號爲gCo

Omni-R1音频问答模型:基于Qwen2.5-Omni+GRPO优化,创MMAU新纪录文本推理关键
AI妹 4 个月前 13 0

最近,一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上,通过一种名为 GRPO

腾讯发布WeChat-YATT训练库 解决大模型强化学习多模态训练瓶颈提升效率
AI妹 4 个月前 13 0

腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT(Yet Another Transformer Trainer),内部项目代号为gCo

Omni-R1音頻問答模型:GRPO強化學習優化,MMAU測試創新紀錄,文本推理成主要原因
AI妹 4 个月前 12 0

最近,一項來自 MIT CSAIL、哥廷根大學、IBM 研究所等機構的研究團隊提出了一個名爲 Omni-R1的全新音頻問答模型。該模型在 Qwen2.5-Omni 的基礎上,通過一種名爲 GRPO

英伟达发布Cosmos-Reason1系列模型 提升AI物理推理及具身能力
AI妹 4 个月前 15 0

近日,英偉達發佈了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常識和具身推理方面的能力。隨着人工智能在語言處理、數學及代碼生成等領域取得顯著進展,如何將這些能力擴展到物理