我想创建一个可以通过this tutorial播放Doom的Policy Gradient代理。但是现在我遇到了一个问题:
Policy Gradient
中的目标是什么?在本教程中,在每个时期,我们运行一个情节并收集州,奖励等类似的所有数据。然后,为了计算损失,我们将它们再次发送到网络中,例如, Cross Entropy
,我们使用Logit
和Labels
。但是这些是一样的!(不是吗?)当当前结果与目标之间没有任何差异时,我们该如何做交叉熵?
我想念什么吗?我的主要问题是:策略的结果是一堆动作(此处为3),我们必须将它们与一些目标动作进行比较。但是在这段代码中,我们在情节中发送收集的动作,然后再次运行该过程,得出相同的值(Logit)。我们这里没有目标!发生什么事了?