参与者评论模型中的共享参数如何工作?

时间:2019-05-26 11:09:36

标签: reinforcement-learning

你好StackOverflow社区!

我对强化学习中的角色批评模型有疑问。

在伯克利大学的侦听策略梯度方法类中,据说在行动者批评算法中,我们既使用某些策略参数来优化我们的策略,又使用某些值函数参数来优化我们的价值函数,但是我们使用相同的参数在某些算法(例如A2C / A3C)的两个优化问题中(即策略参数=值函数参数)

我不明白它是如何工作的。我以为我们应该分别优化它们。此共享参数解决方案如何帮助我们?

预先感谢:)

1 个答案:

答案 0 :(得分:0)

您可以通过共享其网络的某些(或全部)层来做到这一点。但是,如果您这样做,则假定存在最佳状态的通用状态表示(中间层输出)。都。这是一个很强的假设,通常不成立。它被证明可以从图像中学习,您可以在演员和评论家网络的顶部都放置(例如)一个自动编码器,并使用它们的损失函数之和训练它。

这在PPO paper中提及(在等式(9)之前)。但是,他们只是说他们只为学习Atari游戏而共享图层,而不是为持续控制问题共享图层。他们没有说为什么,但是正如我上面所说的,这可以解释:Atari游戏具有一个低维状态表示,对于演员和评论家都是最佳的(例如,由自动编码器学习的编码图像),而对于连续控制通常会直接传递低维状态(坐标,速度等)。

您提到的

A3C也主要用于游戏(我认为是《毁灭战士》)。

根据我的经验,如果状态已经很紧凑,则控制共享层将永远无法工作。