深度神经网络在收敛后发散

时间:2017-01-06 15:46:09

标签: tensorflow deep-learning gradient-descent reinforcement-learning

我在TensorFlow的https://arxiv.org/abs/1602.01783中实施了A3C网络。

此时我90%确定算法正确实现。然而,网络在收敛后出现分歧。请参阅我从最大剧集奖励为7的玩具示例中获得的附图。

当它发散时,对于大多数州,政策网络开始给出单一动作非常高的概率(> 0.9)。

我应该检查这类问题?有什么参考吗?

This is from a toy example, the maximum episode reward is 7.

1 个答案:

答案 0 :(得分:1)

请注意,在原始论文的图1中,作者说:

  

对于异步方法,我们平均取最佳5   50个实验中的模型。

这可能意味着在很多情况下,该算法无法很好地发挥作用。根据我的经验,即使在融合之后,A3C也经常会出现分歧。精心的学习率安排可以提供帮助。或按照作者的方式做-学习几种具有不同种子的代理,然后从您的验证数据中选择表现最好的代理。当验证错误增加时,您也可以采用提前停止。