如何将随机策略与Q值迭代相结合?

时间:2015-02-09 13:49:10

标签: reinforcement-learning

我试图在我的q值迭代算法中使用随机策略。据我了解,随机政策是从特定国家选择行动的概率。另一方面,Q值是状态 - 动作对中的值。我如何结合两者?

1 个答案:

答案 0 :(得分:2)

这方面的一个例子是用于增加Q学习期间探索的ε-贪婪方法。

在这种情况下,你采用Q(s,a)定义的最佳动作,概率为epsilon(0到1之间),你采取概率为1-epsilon的随机动作。