我在TensorFlow的https://arxiv.org/abs/1602.01783中实施了A3C网络。
此时我90%确定算法正确实现。然而,网络在收敛后出现分歧。请参阅我从最大剧集奖励为7的玩具示例中获得的附图。
当它发散时,对于大多数州,政策网络开始给出单一动作非常高的概率(> 0.9)。
我应该检查这类问题?有什么参考吗?
答案 0 :(得分:1)
请注意,在原始论文的图1中,作者说:
对于异步方法,我们平均取最佳5 50个实验中的模型。
这可能意味着在很多情况下,该算法无法很好地发挥作用。根据我的经验,即使在融合之后,A3C也经常会出现分歧。精心的学习率安排可以提供帮助。或按照作者的方式做-学习几种具有不同种子的代理,然后从您的验证数据中选择表现最好的代理。当验证错误增加时,您也可以采用提前停止。