演员 - 评论家强化学习中的行动限制

时间:2013-01-31 00:40:08

标签: algorithm machine-learning constraints neural-network reinforcement-learning

我在一个简单的网格世界中实现了natural actor-critic RL算法,有四种可能的动作(向上,向下,向左,向右),我注意到在某些情况下它往往会卡在两者之间上下或左右。

现在,在这个领域中,上下左右是对立的,如果我能以某种方式让代理知道这个事实,我觉得学习可能会得到改善。我想在计算动作激活之后简单地添加一个步骤(例如,从右激活中减去左激活,反之亦然)。但是,我担心这会引起一般情况下的收敛问题。

似乎这样增加约束将是该领域的共同愿望,所以我想知道是否有人知道我应该为此目的使用的标准方法。如果没有,那么我的临时方法是否合理。

提前致谢!

1 个答案:

答案 0 :(得分:1)

如果可能的话,我不会在选择动作时使用启发式方法。如果你想在训练中添加启发式算法,我会在计算奖励函数时这样做。通过这种方式,代理人将学习并体现启发式作为其近似的价值函数的一部分。

关于振荡行为,您是否允许无移动动作(即停留在同一位置)?

最后,我不会过分担心违反一般情况和收敛保证。在进行应用工作时,它们仅仅是指导。