应用错误收集

DQN：epsilon小后我们可以停止训练吗？

时间：2020-06-26 21:08:48

标签： tensorflow machine-learning q-learning

我对RL非常陌生。

在Q学习中，我们经常使用贪婪的电子警察。但是我想知道为什么在epsilon小到0.1之后我们继续训练的原因是什么？我们不是已经有了最优q值吗？如果没有探索，仍然会变化吗？

0 个答案:

没有答案