我对RL中的策略梯度(PG)算法有疑问。 我正在尝试实现使用PG的算法,但是环境不是随机的而是确定性的。我是否仍可以使用交叉熵(如下)来最大化奖励?如果没有,该如何解决? 谢谢。
neg_cross_entropy = tf.nn.softmax_cross_entropy_with_logits_v2(logits=OUTPUT_NN, labels=ONE_HOT_CODE_ACTIONS)
self.cost = tf.reduce_mean(tf.multiply(neg_cross_entropy,REWARDS))