一段时间以来,我一直在尝试解决OpenAI MountainCarContinuous-v0
环境,但是我被困住了。
我花了数周的时间试图解决它,现在我只是想了解别人的代码。 Here is the link the person used to solve the enviroment。具体来说,我需要有关损失功能的帮助。
在GitHub代码中,写为
self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()
此损失函数在做什么?如果您可以用简单的术语来描述它,那将对我有很大帮助。
答案 0 :(得分:0)
第一步,用normal-ditribution
和mean
定义variance
。在下一步中,将定义损耗函数,如-A*log(p(a)) + \lambda * entropy
,其中A是优势,p(a)是从正态分布采样的作用概率,最后将分布熵添加到损耗函数中。 / p>