在训练DQN时,Q值不断下降

时间:2017-11-28 09:07:19

标签: deep-learning reinforcement-learning pytorch

我正在训练DQN并且Q值继续下降。曲线看起来很奇怪(见下文)。

enter image description here enter image description here

每一步都对应于目标网络的更新。 出现这种情况的任何可能原因?

1 个答案:

答案 0 :(得分:1)

该步骤对应于目标Q网络更新吗?如果是这样,请尝试:

1)较少地更新TargetQ网络

2)增加折扣系数(例如,如果使用的是.5,则增加到.99)

3)使用(1- tau) old + tau v1

形式的TargetQ网络进行平滑更新