关闭导航

包含标签"ε-greedy"的内容

LLM智能体决策存知行不一等缺陷,RLFT等方法助力优化改进
AI妹 1 个月前 9 0

现在的大模型(LLMs)已经非常智能。写文章、编代码、当医生、当老师,样样精通。于是乎,有人就想了:既然它们这么聪明,能不能让它们自己做决定,当个“智能体”呢?比如,在复杂的环境里自己探索、自己解

LLM智能体决策缺陷(知行不一/贪婪/频率偏差)与RLFT改进研究
AI妹 1 个月前 7 0

現在的大模型(LLMs)已經非常智能。寫文章、編代碼、當醫生、當老師,樣樣精通。於是乎,有人就想了:既然它們這麼聰明,能不能讓它們自己做決定,當個“智能體”呢?比如,在複雜的環境裏自己探索、自己解