ε-贪婪的政策,探索率下降

时间:2017-02-20 04:18:18

标签: machine-learning greedy reinforcement-learning q-learning

我想在Q学习中实施ε-贪婪的政策行动选择政策。在这里,许多人使用了以下等式来降低勘探率,

ɛ= e ^( - En)

n =代理人的年龄

E =利用参数

但我不清楚这个“n”是什么意思?是对特定状态 - 动作对的访问次数OR是迭代次数吗?

非常感谢

1 个答案:

答案 0 :(得分:2)

您的问题有几个有效答案。从理论的角度来看,为了实现收敛,Q学习要求所有的状态 - 动作对(渐近地)经常被无限访问。

以前的条件可以通过多种方式实现。在我看来,将n简单地解释为时间步数,即代理与环境进行了多少次交互[例如Busoniu, 2010, Chapter 2]更为常见。

但是,在某些情况下,每个州的探索率可能不同,因此n是座席访问状态s的次数[例如Powell, 2011, chapter 12]

这两种解释同样有效,并确保(在其他条件下)Q学习的渐近收敛。何时更好地使用某种方法或其他方法取决于您的特定问题,类似于您应该使用的E的确切值。