为什么演员批评家不遵守政策

时间:2018-11-12 16:49:26

标签: machine-learning reinforcement-learning

我是强化学习的新手,被演员批评家所困。 我对演员批评者方法的了解是,演员输出一个动作,该动作会改变状态,而批评者会从环境中接收改变后的状态。评论者使用接收到的状态更新策略。如果是这样,那么策略是否会受到操作的影响,因此策略是否依赖于参与者的操作?这不是政策学习的意思吗?

1 个答案:

答案 0 :(得分:0)

基本上,可能有两个版本。您描述的是在线版本,但也可以选择离线版本。注意,该算法不需要在观察到每个转换时都运行训练逻辑。这将是“在线”情况,在这种情况下,您选择具有当前策略的操作,从环境中获得新的状态和奖励,并使用此转换为评论家和演员计算更新。但是您也可以在其他策略生成的过渡上训练模型。例如,您可以在actor网络的输出中添加一些噪声。您还可以将生成的过渡保存到重播缓冲区,并使用随机选择的一批调用调一次训练方法。或者,尽管这不是通常的方法,但是您可以通过使用完全不同的模型的代理来生成过渡(只要动作的形状保持相同,或者您可以将该模型的动作转换为动作格式)。在脱机情况下,您将不直接使用当前策略生成的过渡。