应用错误收集

时间：2017-02-20 04:18:18

标签： machine-learning greedy reinforcement-learning q-learning

我想在Q学习中实施ε-贪婪的政策行动选择政策。在这里，许多人使用了以下等式来降低勘探率，

ɛ= e ^（ - En）

n =代理人的年龄

E =利用参数

但我不清楚这个“n”是什么意思？是对特定状态 - 动作对的访问次数OR是迭代次数吗？

非常感谢

答案 0 :(得分：2)

您的问题有几个有效答案。从理论的角度来看，为了实现收敛，Q学习要求所有的状态 - 动作对（渐近地）经常被无限访问。

以前的条件可以通过多种方式实现。在我看来，将n简单地解释为时间步数，即代理与环境进行了多少次交互[例如Busoniu, 2010, Chapter 2]更为常见。

但是，在某些情况下，每个州的探索率可能不同，因此n是座席访问状态s的次数[例如Powell, 2011, chapter 12]

这两种解释同样有效，并确保（在其他条件下）Q学习的渐近收敛。何时更好地使用某种方法或其他方法取决于您的特定问题，类似于您应该使用的E的确切值。