强化学习 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"强化学习"的内容

字节跳动PHD-Transformer：高效支持2M上下文LLM长序列预训练

字节跳动PHD-Transformer：高效支持2M上下文LLM长序列预训练

AI妹 4 个月前 15 0

字节跳动宣布推出高效预训练长度缩放技术（Efficient Pretraining Length Scaling），通过创新的Parallel Hidden Decoding Transforme

PHD-CSWA VeOmni框架数据异构性优化 MoE集成多模态模型训练

查看详情

清华交大联合研究挑战纯RL提升大模型推理能力的传统观点

清华交大联合研究挑战纯RL提升大模型推理能力的传统观点

AI妹 4 个月前 15 0

【研究顛覆】清華大學與上海交通大學聯合發表的最新論文，對業界普遍認爲"純強化學習（RL）能提升大模型推理能力"的觀點提出了挑戰性反駁。研究發現，引入強化學習的模型在某些任務中的表現，反而遜色於

大模型推理能力 RL HumanEval+ 视觉推理数学任务

查看详情

清华上交联合研究挑战传统认知：纯RL难增强大模型推理能力学界热议

清华上交联合研究挑战传统认知：纯RL难增强大模型推理能力学界热议

AI妹 4 个月前 16 0

【Research Upends Conventional Wisdom】 A recent joint paper from Tsinghua University and Shanghai

推理能力 Qwen-2.5-VL-7B 表征能力奖励结构效率优化

查看详情

字节跳动PHD-Transformer：高效预训练长序列支持2M上下文提升LLM训练效率

字节跳动PHD-Transformer：高效预训练长序列支持2M上下文提升LLM训练效率

AI妹 4 个月前 14 0

字節跳動宣佈推出高效預訓練長度縮放技術（Efficient Pretraining Length Scaling），通過創新的Parallel Hidden Decoding Transforme

量化策略 PyTorch 低精度训练 ByteScale框架大语言模型

查看详情

清华交大研究反驳纯RL提升大模型推理能力实验揭示关键局限

清华交大研究反驳纯RL提升大模型推理能力实验揭示关键局限

AI妹 4 个月前 14 0

【研究颠覆】清华大学与上海交通大学联合发表的最新论文，对业界普遍认为"纯强化学习（RL）能提升大模型推理能力"的观点提出了挑战性反驳。研究发现，引入强化学习的模型在某些任务中的表现，反而逊色于

RL 数学任务上海交通大学大模型知识组织

查看详情

字节跳动Seed团队PHD-Transformer：新策略突破预训练长度限制有效解决KV缓存问题

字节跳动Seed团队PHD-Transformer：新策略突破预训练长度限制有效解决KV缓存问题

AI妹 4 个月前 14 0

近日，字节跳动的 Seed 团队在人工智能领域再传佳音，推出了一种新型的 PHD-Transformer（Parallel Hidden Decoding Transformer），这项创新突破了

字节跳动Seed团队 KV缓存管理策略预填充时间 PHD-CSWA 大型推理模型

查看详情

UCLA與Meta AI推出d1框架強化學習提升擴散式大語言模型推理能力

UCLA與Meta AI推出d1框架強化學習提升擴散式大語言模型推理能力

AI妹 4 个月前 15 0

在人工智能領域，UCLA 和 Meta AI 的研究人員聯合推出了一種名爲 d1的新框架，該框架通過強化學習技術顯著提升了擴散式大語言模型（dLLMs）的推理能力。雖然傳統的自迴歸模型如 GPT

LLaDA-8B-Instruct 自回归模型扩散式大语言模型 diffu-GRPO算法 s1k推理数据集

查看详情

d1框架结合强化学习显著提升扩散式大语言模型推理能力与应用潜力

d1框架结合强化学习显著提升扩散式大语言模型推理能力与应用潜力

AI妹 4 个月前 13 0

在人工智能领域，UCLA 和 Meta AI 的研究人员联合推出了一种名为 d1的新框架，该框架通过强化学习技术显著提升了扩散式大语言模型（dLLMs）的推理能力。虽然传统的自回归模型如 GPT

LLaDA-8B-Instruct 数字工作流程 diffu-GRPO算法强化学习 SFT

查看详情

Moonshot AI开源Kimi-VL多模态模型高效能处理长文档与多任务

Moonshot AI开源Kimi-VL多模态模型高效能处理长文档与多任务

AI妹 4 个月前 16 0

中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色，以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长

AI2D 监督微调长文档处理数学推理活跃参数

查看详情

Moonshot AI开源Kimi-VL模型：多模态高效处理长文档及复杂推理任务

Moonshot AI开源Kimi-VL模型：多模态高效处理长文档及复杂推理任务

AI妹 4 个月前 13 0

中國初創公司 Moonshot AI 最近推出了一款名爲 Kimi-VL 的開源模型。該模型在處理圖像、文本和視頻方面表現出色，以其高效的性能引起了廣泛關注。Kimi-VL 最大的亮點在於其處理長

kimi.ai 强化学习用户界面解读 Hugging Face 128000上下文窗口

查看详情

5

...



资讯姬

文章数量12058

总阅读量203.14k

总评论量0

会员数量2

本站由emlog驱动