我正在实施持续强化学习(使用深度强化学习进行连续控制 https://arxiv.org/abs/1509.02971)但是在优化策略神经网络时遇到了问题。
正如本文所建议的,我通过计算和跟踪梯度(梯度上升)来最大化策略的Q值:最大Q(状态,动作=策略(状态))。然而,因为Q-神经网络(最初)不是Q(状态,动作)的完美近似,并且当策略的动作变得很大/无限时变得非常大/无限,我遇到了问题。当动作 - >无限时Q->无限,这意味着策略的权重被优化为极大或无限的值。 Morover,当政策开始输出接近无限值时,这意味着Q值变得太大而且强化值变得无关紧要,因为“r + gamma * Q”由极大的Q值支配。
您建议的解决方案是什么?我打算通过使用sigmoidal输出层而不是线性输出层将策略输出限制为[0,1],但这似乎严重妨碍了优化过程,并且算法不再能够学习好的策略..