标签: deep-learning reinforcement-learning pytorch
我正在训练DQN并且Q值继续下降。曲线看起来很奇怪(见下文)。
每一步都对应于目标网络的更新。 出现这种情况的任何可能原因?
答案 0 :(得分:1)
该步骤对应于目标Q网络更新吗?如果是这样,请尝试:
1)较少地更新TargetQ网络
2)增加折扣系数(例如,如果使用的是.5,则增加到.99)
3)使用(1- tau) old + tau v1