应用错误收集

我想创建一个可以通过this tutorial播放Doom的Policy Gradient代理。但是现在我遇到了一个问题：

Policy Gradient中的目标是什么？在本教程中，在每个时期，我们运行一个情节并收集州，奖励等类似的所有数据。然后，为了计算损失，我们将它们再次发送到网络中，例如， Cross Entropy，我们使用Logit和Labels。但是这些是一样的！（不是吗？）当当前结果与目标之间没有任何差异时，我们该如何做交叉熵？

我想念什么吗？我的主要问题是：策略的结果是一堆动作（此处为3），我们必须将它们与一些目标动作进行比较。但是在这段代码中，我们在情节中发送收集的动作，然后再次运行该过程，得出相同的值（Logit）。我们这里没有目标！发生什么事了？

使用CNN作为预测指标时的策略梯度目标

0 个答案: