应用错误收集

Epsilon-贪婪算法

时间：2019-06-18 02:42:49

标签： reinforcement-learning q-learning

我了解epsilon-greedy算法，但是有一点困惑。

它跟踪的是平均值奖励还是价值？大多数时候，它是在多臂匪徒的背景下进行解释的。但是，在多武装匪徒问题上，奖励/价值没有区别。
epsilon-greedy算法是Q学习的子集吗？ Q学习的模糊定义似乎是：利用过去的经验来逼近最佳Q函数。

1 个答案:

答案 0 :(得分：1)

Epsilon-greedy是一项策略，而不是一种算法。它不包含离散的动作问题：您可以根据

选择动作

argmax Q(s,a) with probability 1-epsilon
random otherwise

您可以结合使用Q学习，SARSA，DDPG，策略梯度，...