确定性环境-策略梯度

时间:2019-07-04 06:54:38

标签: reinforcement-learning policy-gradient-descent

我对RL中的策略梯度(PG)算法有疑问。 我正在尝试实现使用PG的算法,但是环境不是随机的而是确定性的。我是否仍可以使用交叉熵(如下)来最大化奖励?如果没有,该如何解决? 谢谢。

neg_cross_entropy = tf.nn.softmax_cross_entropy_with_logits_v2(logits=OUTPUT_NN, labels=ONE_HOT_CODE_ACTIONS)
        self.cost = tf.reduce_mean(tf.multiply(neg_cross_entropy,REWARDS))

0 个答案:

没有答案