强化学习中的问题:错误,参数调整和培训期

时间:2016-06-19 10:40:46

标签: neural-network reinforcement-learning

我目前正在使用具有100个隐藏元素的简单神经网络训练强化学习代理来解决2048游戏。我正在使用DQN的强化学习算法(即带有重放记忆的Q学习),但是使用2层神经网络而不是深度神经网络。

然而,我让它在我的笔记本电脑上训练过夜(约7小时,约1000场比赛,> 100000步)并且得分似乎没有增加。我怀疑我的代码中可能存在3个错误来源:错误,参数调整严重,或者我可能不会等待足够长的时间。

有没有方法可以找出代码有什么问题? 改善培训结果的最佳做法是什么?

1 个答案:

答案 0 :(得分:0)

我会谈谈你所有的三个假设。

  1. 如果您使用的是像caffe或tensorflow这样的标准DL框架,那么它成为bug的可能性很小。

  2. 尝试降低学习率。也许你设置它太高,网络无法收敛。

  3. 100000步的训练时间不长。对于简单的pong game,您需要训练大约500000步才能获得良好的准确度。所以你可以尝试更长时间的训练。

  4. 此外,2048是一个相当复杂的游戏,所以也许你的网络不够深入,无法学习如何玩它。对于如此复杂的游戏来说,两层并不多。尝试增加隐藏图层的数量。也许您可以使用提供的网络here