Question

一段时间以来，我一直在尝试解决OpenAI MountainCarContinuous-v0环境，但是我被困住了。

我花了数周的时间试图解决它，现在我只是想了解别人的代码。 Here is the link the person used to solve the enviroment。具体来说，我需要有关损失功能的帮助。

在GitHub代码中，写为

self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()

此损失函数在做什么？如果您可以用简单的术语来描述它，那将对我有很大帮助。

Answer 1

第一步，用normal-ditribution和mean定义variance。在下一步中，将定义损耗函数，如-A*log(p(a)) + \lambda * entropy，其中A是优势，p（a）是从正态分布采样的作用概率，最后将分布熵添加到损耗函数中。 / p>

我需要帮助来了解强化学习代码

1 个答案: