我需要帮助来了解强化学习代码

时间:2019-01-13 05:33:33

标签: tensorflow machine-learning reinforcement-learning openai-gym

一段时间以来,我一直在尝试解决OpenAI MountainCarContinuous-v0环境,但是我被困住了。

我花了数周的时间试图解决它,现在我只是想了解别人的代码。 Here is the link the person used to solve the enviroment。具体来说,我需要有关损失功能的帮助。

在GitHub代码中,写为

self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()

此损失函数在做什么?如果您可以用简单的术语来描述它,那将对我有很大帮助。

1 个答案:

答案 0 :(得分:0)

第一步,用normal-ditributionmean定义variance。在下一步中,将定义损耗函数,如-A*log(p(a)) + \lambda * entropy,其中A是优势,p(a)是从正态分布采样的作用概率,最后将分布熵添加到损耗函数中。 / p>