我正在将代码从TF 1.0移植到TF 2.0,并更新我的分布式模型以利用新的分布式API。这些示例均不符合我的用例,该用例涉及在一个数据收集线程中从强化学习代理收集数据,并在单独的线程中训练代理脱离策略。为此,我想在不同的GPU上分配两个单独的tf.distribute范围,以使通过策略网络的前向传递在训练网络时不会阻止更新操作,而是在两个范围之间共享权重(仅实际会更新模型)。通常,我将tf.train.replica_device_setter与旧的参数服务器样式分发一起使用,以在CPU上分配模型参数,这使我可以在调用此范围的任何地方共享模型。