不可微分奖励功能

时间:2020-06-09 11:24:16

标签: reinforcement-learning reward policy-gradient-descent

在强化学习中,当奖励函数不可微时,将使用策略梯度算法来更新网络的权重。 在this paper中,他们使用一个神经网络的准确性作为奖励信号,然后选择策略梯度算法来更新另一个网络的权重。 我无法将准确性作为不可微分的奖励函数的概念来回绕。我们是否需要查找该函数,然后检查它在数学上是否不可微?我想知道是否可以使用其他值(例如,剪影得分(在不同情况下))作为奖励信号? 感谢您的帮助或与相关资料的任何链接。

0 个答案:

没有答案