RL方法收敛于epsilon = 0吗?

时间:2019-10-11 14:34:59

标签: reinforcement-learning

我的问题很简单。等于零的epsilon是否可以使用RL方法收敛到最优策略? (具有正负奖励函数值)。

谢谢

1 个答案:

答案 0 :(得分:0)

不,不是。因为在epsilon = 0的情况下没有探索,在没有探索的情况下也无法保证。这听起来也很直观,因为如果不进行探索,您将无法充分了解环境,无法找到最佳策略。

以Q学习算法为例,您可以在 Watkins, Christopher JCH, and Peter Dayan. "Q-learning." Machine learning 8.3-4 (1992): 279-292. 这表明如果\epsilon变为零,并且观察次数达到无穷大,那么Q学习确实会收敛到最佳值。