使用共享统计优化器

时间:2017-08-09 03:51:03

标签: asynchronous tensorflow reinforcement-learning

是否有基于开源Tensorflow的A3C强化学习算法的实现,该算法利用具有共享统计信息的优化器,如原始论文中那样?

*我了解具有共享RMSProp统计信息的PyTorchChainer版本的A3C。但未能找到TF。

我询问的Shared RMSProp设置在原始paper的Supp.7中有所描述:

" ...为了在异步优化中应用RMSProp 设置必须决定元素平方梯度g的移动平均值是否共享或 每个线程。我们尝试了两种版本的算法。在一个版本中,我们称之为RMSProp, 每个线程都保持自己的g ...

...在另一个版本中,我们称之为共享 RMSProp,向量g在线程之间共享,并且是异步更新的,没有锁定。分享 线程间的统计数据也减少了内存需求......

...具有共享统计信息的RMSProp往往比 RMSProp具有每线程统计数据,而且比Momentum SGD更强大。"

2 个答案:

答案 0 :(得分:0)

Miyosuda的A3C实施(在https://github.com/miyosuda/async_deep_reinforce找到)利用训练线程上的共享RMSProp统计数据。

https://github.com/miyosuda/async_deep_reinforce/issues/21

的进一步参考

答案 1 :(得分:-1)

这是一个实现 https://github.com/openai/universe-starter-agent

主要训练循环在worker.py here中,观察结果在不同的线程中生成here