Question

我自己在tensorflow中实现了ddpg，却遇到了一个神秘的错误，这花了我几天的时间思考，但仍然没有结果。

我将演员损失定义为

actor_loss = - tf.reduce_mean(self.critic_with_actor.Q)

其中self.critic_with_actor.Q是critic的输出，它的输入是从actor获得的动作之一。问题是，actor不会以任何方式接收任何渐变。这是相关的张量板信息的快照：

其中Tanh是actor的输出张量，即action选择的actor。 BiasAdd是Tanh的输入张量，其他只是actor中的可训练变量。如您所见，Tanh有渐变，而其他渐变则没有。这是我的主要演员评论网络的架构

其中critic_1对应于代码中的self.critic_with_actor，该代码与critic共享变量。