应用错误收集

我认为本文回答了您的问题： https://arxiv.org/pdf/1507.04296.pdf

本文运行一个中央学习器，具有中央重放记忆。另外，还有PS C:\Users\user> $reg = "^.*(?<![-_])\.(?![-_]).*$" PS C:\Users\user> $str = "aaa . aaa" PS C:\Users\user> PS C:\Users\user> $str -match $reg True PS C:\Users\user> $reg = "^.*(?<![-_])\.(?![-_]).*$" PS C:\Users\user> $str = "aaa ._ aaa" PS C:\Users\user> PS C:\Users\user> $str -match $reg False个工作程序，它们是中央学习器的副本，每个工作程序都有自己的重播内存。每个工作人员都会填充自己的重播内存，并且在每个训练步骤中都可以使用自己的重播内存（如果足够大）或使用中央重播内存。在每个动作选择之前，将网络的权重与服务器同步，并且在每个训练步骤之后，将梯度发送回服务器。

还要考虑： https://arxiv.org/pdf/1602.01783.pdf

提出A3C的

，后来提出的A2C是A3C的简单版本。关键是，由于A3C的性能，异步Q学习算法并未引起太多关注。基本上，使用分布式DQN算法效率不高，因为重放内存需要将大量数据从不同的工作程序来回移动到服务器。实际上，提出了A3C来解决重播内存的问题，该内存运行模型的一个实例并在每个工作程序中包含env，并且仅异步更新权重。

我希望这能回答您的问题。

Afshin

同时培训DDQN

1 个答案: