应用错误收集

为什么Deep Q网络算法仅执行一个梯度下降步骤？

时间：2019-12-16 04:46:30

标签： reinforcement-learning dqn

为什么dqn算法仅执行一个梯度下降步骤，即仅训练一个历元？它会不会受益于更多的时代，它的准确性会不会随着更多的时代而提高？

1 个答案:

答案 0 :(得分：1)

时间效率。

从理论上讲，在策略迭代/评估方案中，您应该等到收敛后再进行下一次更新。但是，这可能（a）永远不会发生，（b）花费太多。因此，人们通常以较低的学习率完成一个步骤，以期使批评家（Q）不会“过错”。

您可以尝试更多的步骤，但是总的来说，要执行多少个渐变步骤是一种设计选择，他们可能会发现这是最好的。