应用错误收集

在训练DQN时，Q值不断下降

时间：2017-11-28 09:07:19

标签： deep-learning reinforcement-learning pytorch

我正在训练DQN并且Q值继续下降。曲线看起来很奇怪（见下文）。

enter image description here

每一步都对应于目标网络的更新。出现这种情况的任何可能原因？

1 个答案:

答案 0 :(得分：1)

该步骤对应于目标Q网络更新吗？如果是这样，请尝试：

1）较少地更新TargetQ网络

2）增加折扣系数（例如，如果使用的是.5，则增加到.99）

3）使用（1- tau） old + tau v1

形式的TargetQ网络进行平滑更新