QLearning在重复模拟中的使用情况

时间:2015-03-05 11:00:13

标签: simulation reinforcement-learning q-learning

我在模拟中使用 Q-Learning 算法。此模拟的迭代次数有限(600到700)。学习过程被激活,用于该模拟的几次运行(100次运行)。 我是强化学习的新手,我在这里有一个关于如何在这种模拟中使用探索/利用的问题(我正在使用 e-greedy 探索)。 我正在使用逐渐减少的探索,我想知道是否应该在整个模拟运行中使用减少的探测,或者在每次模拟运行时减少它(对于每次模拟运行,启动epsilon为0.9然后减小它)。 谢谢

1 个答案:

答案 0 :(得分:1)

你不需要如此高的epsilon启动。将q值初始化为非常高可能更好,因此总是在已经探索过至少一次的q值之上选择未知的q值。

考虑到你的状态空间,无论你是在整个跑步还是个人跑步后减少它都无关紧要,但个别听起来更好。

你减少它的速度还取决于世界的情况以及代理人学习的速度。我试图让我的alpha和epsilon与错误相关联,但这样做很棘手。