Epsilon-贪婪算法

时间:2019-06-18 02:42:49

标签: reinforcement-learning q-learning

我了解epsilon-greedy算法,但是有一点困惑。

  1. 它跟踪的是平均值奖励还是价值?大多数时候,它是在多臂匪徒的背景下进行解释的。但是,在多武装匪徒问题上,奖励/价值没有区别。
  2. epsilon-greedy算法是Q学习的子集吗? Q学习的模糊定义似乎是:利用过去的经验来逼近最佳Q函数。

1 个答案:

答案 0 :(得分:1)

Epsilon-greedy是一项策略,而不是一种算法。它不包含离散的动作问题:您可以根据

选择动作
argmax Q(s,a) with probability 1-epsilon
random otherwise

您可以结合使用Q学习,SARSA,DDPG,策略梯度,...