DQN中的初始化状态

时间:2018-11-22 11:13:38

标签: deep-learning reinforcement-learning

我正在使用某个值s'初始化我的环境状态。 另外,每次新的插针开始时,我都会重新初始化环境状态。但是我注意到,当我创建环境并初始化状态为[10,3]时,训练后获得的策略根本无法达到最佳。但是在其他状态下,我们说[20,3].[20,7]....等,我得到的结果非常接近最优值。因此问题是,是否可能从状态[10,3]开始可能导致网络陷入局部最小值?

1 个答案:

答案 0 :(得分:1)

严格地回答这个问题,可以肯定会导致次优策略。一个基本的情况是,如果代理没有进行足够的探索,并且从您选择用于初始化的状态进入最终状态并不是那么容易。最终,代理会找到局部最小值,因为它从未离开过该“局部空间”。

您可能要问自己一个问题-为什么不随机初始化状态?当然,在某些情况下,拥有一个主要状态进行初始化会更有意义,但是如果您的算法在其他起点学习得更好,则可能值得尝试用不同的状态初始化每个情节并让代理概括该状态空间更好。另一个建议是检查您的勘探策略,看看是否能产生足够的影响。