使用DQN时,在epsilon-greedy策略中退火epsilon

时间:2018-01-29 06:44:13

标签: reinforcement-learning

当使用DQN时,我被告知最好在学习之前填满整个重播记忆。如果我使用epsilon-greedy政策,我想知道如何退火epsilon。假设重播内存大小为10000,因此代理应该在学习之前运行10000步。我应该在10000步或学习开始后开始退火吗?提前谢谢。

1 个答案:

答案 0 :(得分:0)

在epsilon-greedy策略中逐步减少epsilon参数的目标是从更具探索性的策略转变为更具剥削性的策略。这个步骤只有在代理学习了某些东西时才有意义,即当它有一些知识可以利用时。

因此,简而言之,您应该在学习开始后开始退火。