应用错误收集

如何将随机策略与Q值迭代相结合？

时间：2015-02-09 13:49:10

标签： reinforcement-learning

我试图在我的q值迭代算法中使用随机策略。据我了解，随机政策是从特定国家选择行动的概率。另一方面，Q值是状态 - 动作对中的值。我如何结合两者？

1 个答案:

答案 0 :(得分：2)

这方面的一个例子是用于增加Q学习期间探索的ε-贪婪方法。

在这种情况下，你采用Q（s，a）定义的最佳动作，概率为epsilon（0到1之间），你采取概率为1-epsilon的随机动作。