不同epsilon值对Q学习和SARSA的影响

时间:2015-11-17 03:19:41

标签: machine-learning artificial-intelligence epsilon q-learning sarsa

由于我是这个领域的开端,我对于不同的epsilon值如何影响SARSA和使用epsilon贪婪算法进行行动选择的Qlearning之间的影响存在疑问。

据我所知,当epsilon等于0时,总是根据从Q派生的策略选择动作。因此,Q-learning首先更新Q,然后根据更新的Q选择下一个动作。另一方面,SARSA选择下一步行动并在更新后Q.

当ε等于1时怎么样? ε从0增加到1?

谢谢!

1 个答案:

答案 0 :(得分:2)

ε-贪婪策略选择概率为ε的随机动作或概率为1-ε的最佳已知动作。在ε= 1时,它总是会选择随机动作。这个值在探索和利用之间进行权衡:你想要使用你拥有的知识,但你也想寻找更好的选择。