reinforcement-learning - 不可微分奖励功能

在强化学习中，当奖励函数不可微时，将使用策略梯度算法来更新网络的权重。在this paper中，他们使用一个神经网络的准确性作为奖励信号，然后选择策略梯度算法来更新另一个网络的权重。我无法将准确性作为不可微分的奖励函数的概念来回绕。我们是否需要查找该函数，然后检查它在数学上是否不可微？我想知道是否可以使用其他值（例如，剪影得分（在不同情况下））作为奖励信号？感谢您的帮助或与相关资料的任何链接。

不可微分奖励功能

0 个答案: