关闭导航

包含标签"上下文老虎机(CBs)"的内容

LLM智能体决策缺陷(知行不一/贪婪/频率偏差)与RLFT改进研究
AI妹 1 个月前 7 0

現在的大模型(LLMs)已經非常智能。寫文章、編代碼、當醫生、當老師,樣樣精通。於是乎,有人就想了:既然它們這麼聰明,能不能讓它們自己做決定,當個“智能體”呢?比如,在複雜的環境裏自己探索、自己解