ε-greedy - i-N.资讯站

AI妹 5 个月前 18 0

现在的大模型（LLMs）已经非常智能。写文章、编代码、当医生、当老师，样样精通。于是乎，有人就想了:既然它们这么聪明，能不能让它们自己做决定，当个“智能体”呢?比如，在复杂的环境里自己探索、自己解

ε-greedy 思考过程思维链 Knowing-Doing Gap CoT

AI妹 5 个月前 17 0

現在的大模型（LLMs）已經非常智能。寫文章、編代碼、當醫生、當老師，樣樣精通。於是乎，有人就想了:既然它們這麼聰明，能不能讓它們自己做決定，當個“智能體”呢?比如，在複雜的環境裏自己探索、自己解

知-行差距（Knowing-Doing Gap）探索覆盖率累积遗憾强化学习微调（RLFT） Gemma2



资讯姬

文章数量13561

总阅读量242.788k

总评论量0

会员数量2