当使用DQN时,我被告知最好在学习之前填满整个重播记忆。如果我使用epsilon-greedy政策,我想知道如何退火epsilon。假设重播内存大小为10000,因此代理应该在学习之前运行10000步。我应该在10000步或学习开始后开始退火吗?提前谢谢。
答案 0 :(得分:0)
在epsilon-greedy策略中逐步减少epsilon参数的目标是从更具探索性的策略转变为更具剥削性的策略。这个步骤只有在代理学习了某些东西时才有意义,即当它有一些知识可以利用时。
因此,简而言之,您应该在学习开始后开始退火。