我的问题很简单。等于零的epsilon是否可以使用RL方法收敛到最优策略? (具有正负奖励函数值)。
谢谢
答案 0 :(得分:0)
不,不是。因为在epsilon = 0的情况下没有探索,在没有探索的情况下也无法保证。这听起来也很直观,因为如果不进行探索,您将无法充分了解环境,无法找到最佳策略。
以Q学习算法为例,您可以在
Watkins, Christopher JCH, and Peter Dayan. "Q-learning." Machine learning 8.3-4 (1992): 279-292.
这表明如果\epsilon
变为零,并且观察次数达到无穷大,那么Q学习确实会收敛到最佳值。