Hi StackOverflow社区,
加强学习中的策略梯度方法存在问题。
在政策梯度方法中,我们根据从该步骤开始的回报(即总奖励)来增加/减少某动作的对数概率。因此,如果我们的回报率很高,我们会增加回报率,但是在这一步我有问题。
让我们说,我们获得了三项回报。尽管这三个奖励的总和很高,但第二个奖励确实很差。
我们如何处理这个问题?我们如何分别评估每个奖励?是否有此策略渐变方法的替代版本?
答案 0 :(得分:0)
这是multi-objective problem,其中奖励不是标量而是向量。根据定义,经典意义上没有单一的最优策略,但是有一组帕累托最优策略,即您无法在其中表现更好的策略。一个目标(例如,第一笔奖励的最高金额),而不会在另一个目标上(其他奖励的最高金额)有所损失。 在优化(通常为genetic algorithms)和RL中,有许多方法可以解决多目标问题。 天真地,您可以通过线性加权对奖励进行标量处理,但这确实效率很低。更复杂的方法可以在策略参数空间(例如this)中学习多种方法。