我想交叉检查我对强化学习的理解。培训策略然后在以后重用学习的策略是多么容易/困难或共同?到目前为止我所理解的是,当我们停止培训并且如果我们再次开始时,它需要从头开始,即无法从学到的政策中受益。谢谢。
答案 0 :(得分:2)
这取决于您使用的具体方法,但通常,一旦学习方法收敛,就不需要“训练”。例如,在Q学习的情况下,这是一种无模型的非策略学习方法,在算法收敛之前,代理仍然必须采取随机动作来确保 Q中的每个相关点(s,a )空间已被探索。但是每个单独的步骤都利用了从先前剧集中获得的经验,所以说你从头开始每一集都是不正确的。