标签: tensorflow reinforcement-learning tensorflow-serving
以下是我用于设计策略梯度算法的代码的一部分。在张量流:
{{1}}
张量log_p评估为罚款。但是,policy_gradients都为零。我错过了什么吗?
答案 0 :(得分:0)
当log(x)= 0时梯度可以为0,这将在x = 1或x = 0时发生(不确定但可能对于log(0)张量流产生nan,梯度为0)。
您可以尝试剪切传递给对数的值:
tf.log(tf.clip_to_value(x, 1e-15, 0.99)