标签: tensorflow machine-learning q-learning
我对RL非常陌生。
在Q学习中,我们经常使用贪婪的电子警察。但是我想知道为什么在epsilon小到0.1之后我们继续训练的原因是什么? 我们不是已经有了最优q值吗?如果没有探索,仍然会变化吗?