标签: reinforcement-learning
我试图在我的q值迭代算法中使用随机策略。据我了解,随机政策是从特定国家选择行动的概率。另一方面,Q值是状态 - 动作对中的值。我如何结合两者?
答案 0 :(得分:2)
这方面的一个例子是用于增加Q学习期间探索的ε-贪婪方法。
在这种情况下,你采用Q(s,a)定义的最佳动作,概率为epsilon(0到1之间),你采取概率为1-epsilon的随机动作。