Question

以下是我用于设计策略梯度算法的代码的一部分。在张量流：

{{1}}

张量log_p评估为罚款。但是，policy_gradients都为零。我错过了什么吗？

Answer 1

当log（x）= 0时梯度可以为0，这将在x = 1或x = 0时发生（不确定但可能对于log（0）张量流产生nan，梯度为0）。

您可以尝试剪切传递给对数的值：

tf.log(tf.clip_to_value(x, 1e-15, 0.99)