为什么Deep Q网络算法仅执行一个梯度下降步骤?

时间:2019-12-16 04:46:30

标签: reinforcement-learning dqn

为什么dqn算法仅执行一个梯度下降步骤,即仅训练一个历元?它会不会受益于更多的时代,它的准确性会不会随着更多的时代而提高?

1 个答案:

答案 0 :(得分:1)

时间效率。

从理论上讲,在策略迭代/评估方案中,您应该等到收敛后再进行下一次更新。但是,这可能(a)永远不会发生,(b)花费太多。 因此,人们通常以较低的学习率完成一个步骤,以期使批评家(Q)不会“过错”。

您可以尝试更多的步骤,但是总的来说,要执行多少个渐变步骤是一种设计选择,他们可能会发现这是最好的。