上下文老虎机（CBs）

AI妹 5 个月前 17 0

現在的大模型（LLMs）已經非常智能。寫文章、編代碼、當醫生、當老師，樣樣精通。於是乎，有人就想了:既然它們這麼聰明，能不能讓它們自己做決定，當個“智能體”呢?比如，在複雜的環境裏自己探索、自己解

文字版井字棋模仿学习强化学习微调（RLFT） Gemma2 探索覆盖率



资讯姬

文章数量13547

总阅读量240.609k

总评论量0

会员数量2