在强化学习中,我们为什么要根据ε-贪婪的方法选择行动,而不是总是选择最佳行动?
答案 0 :(得分:0)
我们在训练期间使用epsilon-greedy方法进行探索。这意味着当通过训练选择动作时,它被选择为具有最高Q值的动作,或者被选择为某个因子(epsilon)的随机动作。
在这两者之间进行选择是随机的,并且基于epsilon的值。最初,采取了大量的随机动作,这意味着我们从探索空间开始,但随着训练的进行,采取了具有最大q值的更多动作,并且我们逐渐开始少关注具有低Q值的动作。
在测试过程中,我们使用这种epsilon-greedy方法,但是epsilon的值非常低,因此对探索的利用存在强烈的偏见,有利于选择具有最高q值的动作而不是随机动作。但是,有时仍会选择随机行动。
这一切都是因为我们想要消除过度拟合或不合适的负面影响。
使用0的epsilon(总是选择最佳动作)是一个完全剥削的选择。例如,考虑一个迷宫游戏,其中代理的当前Q估计收敛到最优策略,除了一个网格,它贪婪地选择移动到边界(这是当前最优策略),导致它保持在同一个边界grid,如果代理达到任何这样的状态,并且它正在选择最大Q-action,它将被卡在那里。但是,在其政策中保留一个小的epsilon因子可以让它摆脱这种状态。
答案 1 :(得分:0)
如果您已经知道最佳动作是什么,那么学习就不会发生,对吧? :)
ε-greedy是“政策上”学习,这意味着你正在学习最优ε-贪婪的政策,同时用ε-贪婪的政策进行探索。您还可以通过选择与您正在学习的政策不一致的动作来学习“非政策性”,例如总是随机探索(与ε= 1相同)。
我知道这一开始会让人感到困惑,如果你随机移动,你怎么能学到什么?这里的关键知识是你学到的政策不是由你如何探索,而是由你如何计算未来奖励的总和(在常规Q-Learning的情况下,它是最大(Q [next_state])片在Q值更新中。
这一切都假设您正在进行足够的探索,如果您没有尝试新的行动,代理商将永远无法确定哪些是最好的。