应用错误收集

使用DQN时，在epsilon-greedy策略中退火epsilon

时间：2018-01-29 06:44:13

标签： reinforcement-learning

当使用DQN时，我被告知最好在学习之前填满整个重播记忆。如果我使用epsilon-greedy政策，我想知道如何退火epsilon。假设重播内存大小为10000，因此代理应该在学习之前运行10000步。我应该在10000步或学习开始后开始退火吗？提前谢谢。

1 个答案:

答案 0 :(得分：0)

在epsilon-greedy策略中逐步减少epsilon参数的目标是从更具探索性的策略转变为更具剥削性的策略。这个步骤只有在代理学习了某些东西时才有意义，即当它有一些知识可以利用时。

因此，简而言之，您应该在学习开始后开始退火。