切换回Q学习后立即进行双重Q学习

时间:2020-02-13 03:53:26

标签: reinforcement-learning q-learning

我试图更好地理解文件enter image description here,其中提到“我们增加了目标网络每两个副本之间的帧数 从10,000到30,000,以进一步减少高估,因为在每次切换之后DQN和Double DQN都立即恢复为Q学习”。这是关于同时恢复为DQN还是Double DQN实际上是通过FMDP变为Q学习? >

0 个答案:

没有答案