使用CNN作为预测指标时的策略梯度目标

时间:2018-10-04 10:31:26

标签: neural-network artificial-intelligence reinforcement-learning q-learning policy-gradient-descent

我想创建一个可以通过this tutorial播放Doom的Policy Gradient代理。但是现在我遇到了一个问题:

Policy Gradient中的目标是什么?在本教程中,在每个时期,我们运行一个情节并收集州,奖励等类似的所有数据。然后,为了计算损失,我们将它们再次发送到网络中,例如, Cross Entropy,我们使用LogitLabels。但是这些是一样的!(不是吗?)当当前结果与目标之间没有任何差异时,我们该如何做交叉熵?

我想念什么吗?我的主要问题是:策略的结果是一堆动作(此处为3),我们必须将它们与一些目标动作进行比较。但是在这段代码中,我们在情节中发送收集的动作,然后再次运行该过程,得出相同的值(Logit)。我们这里没有目标!发生什么事了?

0 个答案:

没有答案