应用错误收集

确定性环境-策略梯度

时间：2019-07-04 06:54:38

标签： reinforcement-learning policy-gradient-descent

我对RL中的策略梯度（PG）算法有疑问。我正在尝试实现使用PG的算法，但是环境不是随机的而是确定性的。我是否仍可以使用交叉熵（如下）来最大化奖励？如果没有，该如何解决？谢谢。

neg_cross_entropy = tf.nn.softmax_cross_entropy_with_logits_v2(logits=OUTPUT_NN, labels=ONE_HOT_CODE_ACTIONS)
        self.cost = tf.reduce_mean(tf.multiply(neg_cross_entropy,REWARDS))

0 个答案:

没有答案