是否有基于开源Tensorflow
的A3C强化学习算法的实现,该算法利用具有共享统计信息的优化器,如原始论文中那样?
*我了解具有共享RMSProp统计信息的PyTorch
和Chainer
版本的A3C。但未能找到TF。
我询问的Shared RMSProp
设置在原始paper的Supp.7中有所描述:
" ...为了在异步优化中应用RMSProp 设置必须决定元素平方梯度g的移动平均值是否共享或 每个线程。我们尝试了两种版本的算法。在一个版本中,我们称之为RMSProp, 每个线程都保持自己的g ...
...在另一个版本中,我们称之为共享 RMSProp,向量g在线程之间共享,并且是异步更新的,没有锁定。分享 线程间的统计数据也减少了内存需求......
...具有共享统计信息的RMSProp往往比 RMSProp具有每线程统计数据,而且比Momentum SGD更强大。"
答案 0 :(得分:0)
Miyosuda的A3C实施(在https://github.com/miyosuda/async_deep_reinforce找到)利用训练线程上的共享RMSProp统计数据。
的进一步参考答案 1 :(得分:-1)