我想在Q学习中实施ε-贪婪的政策行动选择政策。在这里,许多人使用了以下等式来降低勘探率,
ɛ= e ^( - En)
n =代理人的年龄
E =利用参数
但我不清楚这个“n”是什么意思?是对特定状态 - 动作对的访问次数OR是迭代次数吗?
非常感谢
答案 0 :(得分:2)
您的问题有几个有效答案。从理论的角度来看,为了实现收敛,Q学习要求所有的状态 - 动作对(渐近地)经常被无限访问。
以前的条件可以通过多种方式实现。在我看来,将n
简单地解释为时间步数,即代理与环境进行了多少次交互[例如Busoniu, 2010, Chapter 2]更为常见。
但是,在某些情况下,每个州的探索率可能不同,因此n
是座席访问状态s
的次数[例如Powell, 2011, chapter 12]
这两种解释同样有效,并确保(在其他条件下)Q学习的渐近收敛。何时更好地使用某种方法或其他方法取决于您的特定问题,类似于您应该使用的E
的确切值。