政策梯度方法和基于神经网络的行动价值方法有什么区别?

时间:2018-05-05 12:57:05

标签: machine-learning artificial-intelligence reinforcement-learning q-learning

政策梯度方法和基于神经网络的行动价值方法有什么区别?

1 个答案:

答案 0 :(得分:1)

我们需要区分“行动选择”和“行动价值估计”。

行动价值(由Q(s, a)表示)估算包括计算某一特定行动a的某种“得分”(通常称为“预期未来奖励”)s 1}}。我们只是估算了这个值Q(s, a),但我们仍然不知道我们将采取什么行动。

然后,有一个动作选择,它是一个函数f,它根据一些信息返回我们执行的动作。

名为操作值方法的广泛类是“操作选择”方法,当给定操作值估算(得分)Q时,会给我们一个执行操作。这种方法的一个例子是 epsilon-greedy方法。概率为1 - epsilon的此方法选择具有最高动作值分数且概率为epsilon(通常为小数字)的动作随机选择动作。我们使用的唯一信息是Q分数。

政策渐变方法执行操作选择。我们提供给f的信息是当前状态s和一些参数thetaf(s, theta)我们可以将这些参数theta想象成神经网络的权重。因此,在实践中,我们将神经网络的权重设置为theta的值,将网络状态s作为输入并获得动作a作为输出。这只是政策梯度方法的一个例子。我们不需要任何州值或行动价值估计来获得该政策。此外,函数f必须是可微分的。

Actor-Critic 方法也会执行操作选择。与政策梯度方法的不同之处在于,函数f也接受行动价值估算,即Q作为输入:f(s, theta, Q)。我们需要采取行动价值估算来采取行动。

您可以在第13章:政策梯度方法中阅读Sutton和Barto的“强化学习:简介”中的差异。