应用错误收集

TensonFlow 2 分布式Impala 强化学习策略

时间：2021-03-15 06:07:22

标签： tensorflow2.0 distributed-computing reinforcement-learning distributed-tensorflow

我正在尝试实施 IMAPLA 算法（强化学习）。

在这个算法中有许多actor，它们使用他们的神经网络执行动作并将轨迹发送给学习器。 学习者拥有与所有演员相同的神经网络，它训练神经网络，并在进行一些学习后将更新的权重分配给所有演员。

我想了解哪种分发策略更适合此任务。我的理解是镜像策略参数在所有机器上共享，但在这里我们不需要它，那么我应该使用哪一个？

0 个答案:

没有答案