关闭导航

包含标签"多臂老虎机"的内容

LLM智能体决策存知行不一等缺陷,RLFT等方法助力优化改进
AI妹 1 个月前 8 0

现在的大模型(LLMs)已经非常智能。写文章、编代码、当医生、当老师,样样精通。于是乎,有人就想了:既然它们这么聪明,能不能让它们自己做决定,当个“智能体”呢?比如,在复杂的环境里自己探索、自己解

谷歌DeepMind新研究:RLFT技術提升AI語言模型決策力縮小推理執行差距
AI妹 1 个月前 9 0

近期,谷歌 DeepMind 團隊與約翰・開普勒林茨大學 LIT AI 實驗室合作,開展了一項關於人工智能語言模型的新研究。他們採用了強化學習微調(RLFT)技術,旨在提升語言模型的決策能力。這項