强化学习(RL) - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"强化学习(RL)"的内容

马斯克xAI完成Grok9训练 1.5万亿参数版将3-4周发布并提升编程能力

马斯克xAI完成Grok9训练 1.5万亿参数版将3-4周发布并提升编程能力

AI妹 22 天前 1 0

埃隆·马斯克近日在社交平台X上确认，旗下人工智能公司xAI的内部第 9 版Grok大模型基础模型已正式完成训练。这款新模型拥有高达1. 5 万亿的惊人参数量，预计将在未来 3 到 4 周内向公众发

监督微调(SFT) 补充训练数据缺陷第9版Grok xAI

查看详情

马斯克将推1.5万亿参数Grok9版用Cursor数据补短板对标Claude

马斯克将推1.5万亿参数Grok9版用Cursor数据补短板对标Claude

AI妹 22 天前 1 0

马斯克终于要出手了。在AI编程赛道上，OpenAI和Anthropic越跑越快，xAI这边多少有点跟不上节奏。马斯克嘴上没少说要对标Claude，但Grok4.X系列几次更新下来，跑分看着光鲜

监督微调(SFT) Grok第9版强化学习(RL) 马斯克 1.5万亿参数

查看详情

腾讯混元联合发布OpenSearch-VL开源强化学习多模态搜索智能体突破数据瓶颈

腾讯混元联合发布OpenSearch-VL开源强化学习多模态搜索智能体突破数据瓶颈

AI妹 1 个月前 1 0

随着多模态大语言模型（MLLMs）的飞速发展，如何让模型从“被动理解图片”进化为“主动寻找证据并推理”的智能体(Agent)，已成为当前 AI 领域竞争的核心。然而，由于高质量训练数据

多模态深度搜索基准测试强化学习(RL) 多轮故障感知GRPO 加州大学洛杉矶分校(UCLA) 多模态大语言模型(MLLMs)

查看详情

阿里通义FIPO算法突破推理瓶颈 32B模型反超OpenAI o1-mini

阿里通义FIPO算法突破推理瓶颈 32B模型反超OpenAI o1-mini

AI妹 2 个月前 3 0

据报道，阿里通义实验室的 Qwen Pilot 团队推出了一项名为 FIPO 的全新算法。该算法旨在打破传统强化学习（RL）在处理复杂逻辑时的瓶颈，让模型在推

Future-KL机制奖励机制强化学习(RL) 逻辑推导阿里通义实验室

查看详情

阶跃星辰开源320亿参数Step-DeepResearch 深度研究能力强成本低

阶跃星辰开源320亿参数Step-DeepResearch 深度研究能力强成本低

AI妹 5 个月前 14 0

近日，阶跃星辰正式开源了一款全新的深度研究模型 ——Step-DeepResearch。这款模型拥有320亿参数，致力于在开放式研究环境中进行自主的信息探索和专业报告生成。根据官方介绍，Step-

反思交叉验证 320亿参数原子能力强化学习(RL)

查看详情

国产智谱GLM-4.7超越GPT-5.2登顶开源代码榜开源Slime框架提升强化学习效率

国产智谱GLM-4.7超越GPT-5.2登顶开源代码榜开源Slime框架提升强化学习效率

AI妹 5 个月前 15 0

年底的科技圈再度掀起波澜，智谱科技最新推出的 GLM-4.7模型不仅在代码竞技场的 WebDev 榜单上超越了 GPT-5.2，荣登开源大模型第一，还引发了网友们的热烈讨论和实测狂潮。这个被称为

GPT-5.2 国产AI模型强化学习(RL) 创意写作 Slime框架

查看详情

Kimina-Prover预览版发布开源模型数据集刷新miniF2F基准性能纪录

Kimina-Prover预览版发布开源模型数据集刷新miniF2F基准性能纪录

AI妹 5 个月前 19 0

Kimi 技術團隊近日發佈了 Kimina-Prover 預覽版的技術報告，並開源了1.5B 和7B 參數的模型蒸餾版本、用於數據生成的 Kimina-Autoformalizer-7

Kimi技术团队 Numina团队 MoonshotAI 形式化定理证明蒸馏版本

查看详情

清华上交研究质疑RL提升大语言模型推理能力引发学界广泛讨论

清华上交研究质疑RL提升大语言模型推理能力引发学界广泛讨论

AI妹 5 个月前 19 0

【研究の転換点】清華大学と上海交通大学が共同発表した最新の論文は、業界で広く信じられている「純粋な強化学習（RL）は大規模言語モデルの推論能力を向上させる」という見解に異議を唱えています。研

强化学习(RL) HumanEval+ 视觉推论报酬构造大规模语言模型

查看详情

xAI Grok3.5测试版下周推出 SuperGrok专属聚焦第一性原理推理与技术专精

xAI Grok3.5测试版下周推出 SuperGrok专属聚焦第一性原理推理与技术专精

AI妹 5 个月前 18 0

xAI宣佈Grok3.5測試版將於下週正式推出，首批僅對SuperGrok訂閱用戶開放。據AIbase瞭解，該版本以其在火箭發動機和電化學等領域的精準技術解答能力引發熱議，號稱“全球首個人工智能能

SuperGrok订阅强化学习(RL) 低延迟响应 xAI Colossus超级计算机

查看详情

ByteDance Trae AIコードエディター、OpenAI o3モデルをサポートし開発効率向上

ByteDance Trae AIコードエディター、OpenAI o3モデルをサポートし開発効率向上

AI妹 5 个月前 14 0

人工知能技術の急激な発展に伴い、AI駆動型のコードエディターツールは開発者にとって注目を集める存在となっています。最近、AIbaseが報じたところによると、バイトダンス（ByteDance）がリリ

上下文感知调试高效率生产力 TRAE 思维链(Chain of Thinking) 隐私安全

查看详情

1



资讯姬

文章数量13527

总阅读量229.167k

总评论量0

会员数量2

本站由emlog驱动