标签: reinforcement-learning q-learning
我了解epsilon-greedy算法,但是有一点困惑。
答案 0 :(得分:1)
Epsilon-greedy是一项策略,而不是一种算法。它不包含离散的动作问题:您可以根据
argmax Q(s,a) with probability 1-epsilon random otherwise
您可以结合使用Q学习,SARSA,DDPG,策略梯度,...