应用错误收集

不同epsilon值对Q学习和SARSA的影响

时间：2015-11-17 03:19:41

标签： machine-learning artificial-intelligence epsilon q-learning sarsa

由于我是这个领域的开端，我对于不同的epsilon值如何影响SARSA和使用epsilon贪婪算法进行行动选择的Qlearning之间的影响存在疑问。

据我所知，当epsilon等于0时，总是根据从Q派生的策略选择动作。因此，Q-learning首先更新Q，然后根据更新的Q选择下一个动作。另一方面，SARSA选择下一步行动并在更新后Q.

当ε等于1时怎么样？ ε从0增加到1？

谢谢！

1 个答案:

答案 0 :(得分：2)

ε-贪婪策略选择概率为ε的随机动作或概率为1-ε的最佳已知动作。在ε= 1时，它总是会选择随机动作。这个值在探索和利用之间进行权衡：你想要使用你拥有的知识，但你也想寻找更好的选择。