tf.gradients返回全零

时间:2017-09-15 16:15:19

标签: tensorflow reinforcement-learning tensorflow-serving

以下是我用于设计策略梯度算法的代码的一部分。在张量流:

{{1}}

张量log_p评估为罚款。但是,policy_gradients都为零。我错过了什么吗?

1 个答案:

答案 0 :(得分:0)

当log(x)= 0时梯度可以为0,这将在x = 1或x = 0时发生(不确定但可能对于log(0)张量流产生nan,梯度为0)。

您可以尝试剪切传递给对数的值:

tf.log(tf.clip_to_value(x, 1e-15, 0.99)