在情节环境中训练A3C算法是否可行?

时间:2017-03-18 14:36:58

标签: tensorflow deep-learning reinforcement-learning q-learning

A3C算法(和N步Q学习)每N步一次更新全局共享网络。 N通常很小,据我记得5或20。

是否可以将N设置为无穷大,这意味着网络仅在剧集结束时进行训练?我并不认为它必然更好 - 对我来说听起来很难 - 但至少它应该不会更糟,对吧?

缺乏基于不同环境中多个代理对环境进行异步探索的异步训练,因此如果训练是按顺序进行的,那么在没有重放记忆的情况下稳定训练过程可能是一个问题(如:每个工人线程,整个网络训练观察SAR序列)。艰难的是,训练仍然可以与子序列异步完成,只会使有状态LSTM的训练更加复杂。

我之所以要问的是"进化策略是强化学习的可扩展替代方案"纸。为了将它与像A3C这样的算法进行比较,从代码工程的角度来看,以同样的方式训练两种算法会更有意义。

1 个答案:

答案 0 :(得分:1)

当然,只需将N设置为大于最大剧集长度(或修改源以删除批处理条件。请注意,在原始的A3C论文中,这是通过动态控制环境完成的(具有连续性)通常认为,能够更新中段(不必要)是TD方法的一个关键优势:它使用马尔可夫条件MDP。