由于我是这个领域的开端,我对于不同的epsilon值如何影响SARSA和使用epsilon贪婪算法进行行动选择的Qlearning之间的影响存在疑问。
据我所知,当epsilon等于0时,总是根据从Q派生的策略选择动作。因此,Q-learning首先更新Q,然后根据更新的Q选择下一个动作。另一方面,SARSA选择下一步行动并在更新后Q.
当ε等于1时怎么样? ε从0增加到1?
谢谢!
答案 0 :(得分:2)
ε-贪婪策略选择概率为ε的随机动作或概率为1-ε的最佳已知动作。在ε= 1时,它总是会选择随机动作。这个值在探索和利用之间进行权衡:你想要使用你拥有的知识,但你也想寻找更好的选择。