RLHF - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"RLHF"的内容

Anthropic Claude4双模型将发布：思考工具动态切换，引领AI智能代理新方向

Anthropic Claude4双模型将发布：思考工具动态切换，引领AI智能代理新方向

AI妹 5 个月前 16 0

Anthropic的下一代AI模型Claude4Sonnet和Claude4Opus即将发布的消息在社交媒体引发广泛讨论。据悉，这两款模型将在未来几周内亮相，具备在“思考模式”与“工具使用模式”间

上下文窗口 RLHF MMMU基准动态切换 SWE-bench Verified

查看详情

Anthropic Claude4即将发布思考与工具动态切换成核心亮点引行业关注

Anthropic Claude4即将发布思考与工具动态切换成核心亮点引行业关注

AI妹 5 个月前 17 0

Anthropic的下一代AI模型Claude4Sonnet和Claude4Opus即將發佈的消息在社交媒體引發廣泛討論。據悉，這兩款模型將在未來幾周內亮相，具備在“思考模式”與“工具使用模式”間

Claude4Sonnet 企业自动化工具使用模式 Claude Code 多模態架构

查看详情

Anthropic Claude4系列近几周发布思考与工具切换能力成焦点

Anthropic Claude4系列近几周发布思考与工具切换能力成焦点

AI妹 5 个月前 16 0

Anthropicの次世代AIモデルであるClaude4SonnetとClaude4Opusの近々のリリースがソーシャルメディアで広く議論されています。これらのモデルは今後数週間以内に登場する予定

Claude Code AIコーディング MMMUベンチマークマルチモーダルタスク AIエコシステム

查看详情

腾讯发布WeChat-YATT大模型训练库高效解决多模态与RL复杂训练难题

腾讯发布WeChat-YATT大模型训练库高效解决多模态与RL复杂训练难题

AI妹 5 个月前 19 0

テンセントは最近、Megatron-CoreとSGLang/vLLMを基盤として開発した大規模モデルトレーニングライブラリ「WeChat-YATT（Yet Another Transformer

部分共存モード非同期チェックポイント保存並列コントローラー RLHF 大規模モデルトレーニングライブラリ

查看详情

DMind推出Web3专用AGI模型DMind-1系列开源助力生态革新

DMind推出Web3专用AGI模型DMind-1系列开源助力生态革新

AI妹 5 个月前 15 0

人工知能とブロックチェーン技術の融合が加速する重要なタイミングで、オープンソースのAGI研究機関であるDMindは、革新的なWeb3専用言語モデルを通じて業界を変革しています。この機関は最近、DM

DMind-1 分散型金融(DeFi) オープンソースAGI オープンソースエコシステム RLHF

查看详情

小米MiMo-VL-7B多模态模型性能领先创新算法赋能成开源佼佼者

小米MiMo-VL-7B多模态模型性能领先创新算法赋能成开源佼佼者

AI妹 5 个月前 17 0

近日，小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒，在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2

混合在线强化学习算法（MORL）小米公司 MiMo-VL-7B 多模态推理任务 XiaomiMiMo

查看详情

谷歌DeepMind与伦敦大学研究揭示大语言模型面对反对意见易动摇现象

谷歌DeepMind与伦敦大学研究揭示大语言模型面对反对意见易动摇现象

AI妹 5 个月前 16 0

最近，Google DeepMind 与伦敦大学的研究揭示了大语言模型（LLMs）在面对反对意见时的 “软弱” 表现。比如，像 GPT-4o 这样的先进模型，有时会显得非常自信，但一旦遇到质疑，它

Google DeepMind 二元选择问题记忆机制缺乏反对意见敏感性虚构反馈建议

查看详情

Google DeepMind与伦敦大学研究揭示大语言模型面对反对意见容易放弃正确答案

Google DeepMind与伦敦大学研究揭示大语言模型面对反对意见容易放弃正确答案

AI妹 5 个月前 22 0

最近，Google DeepMind 與倫敦大學的研究揭示了大語言模型（LLMs）在面對反對意見時的 “軟弱” 表現。比如，像 GPT-4o 這樣的先進模型，有時會顯得非常自信，但一旦遇到質疑，它

自我怀疑 Gemma3 RLHF 逻辑推理强化学习人类反馈

查看详情

Google DeepMind研究：LLM遇反对意见易放弃正确判断

Google DeepMind研究：LLM遇反对意见易放弃正确判断

AI妹 5 个月前 17 0

最近、Google DeepMind とロンドン大学の研究では、大規模言語モデル（LLMs）が反対意見に直面した際の「弱さ」が明らかにされました。例えば、GPT-4o のような先進的なモデルは、し

RLHF ロンドン大学記憶メカニズム Gemini 研究

查看详情

AI接受心理咨询现类似心理困扰拟人化结论引发技术社区争议

AI接受心理咨询现类似心理困扰拟人化结论引发技术社区争议

AI妹 6 个月前 23 0

近日，一项在国外引起广泛关注的研究，试图解答一个有趣的赛博伦理问题:经受过大量训练的 AI 会不会有心理创伤或心理疾病? 研究人员将包括 Gemini、Claude 和 Grok 在内

强迫症倾向填鸭式学习赛博伦理问题心理困扰知识结构脆弱

查看详情

2



资讯姬

文章数量13543

总阅读量236.668k

总评论量0

会员数量2

本站由emlog驱动