reinforcement-learning - 如何处理在终端状态下具有奖励的可变长度情节的奖励

如何处理在终端状态下具有奖励的可变长度情节的奖励

时间：2020-01-17 17:20:10

标签： reinforcement-learning

游戏的目的是让兔子在最短的时间内找到一个大白菜并吃掉。动作空间是离散的（上/下/右/左），状态空间是连续的（非常大的场）。当兔子找到大白菜或离开田野时（以先发生者为准），跳跃100次后情节结束。状态变量之一是到卷心菜的距离。由于该领域非常大，因此我使用奖励整形（靠近或远离白菜的奖励小/正数）。为了在最短时间内到达白菜，每跳一次奖励为0，发现白菜时奖励为1。但是，塑造奖励会破坏计划。有没有一种优雅的方法在游戏中采用奖励塑造，以及如何？感谢您的任何建议。

1 个答案:

答案 0 :(得分：0)

经过一些研究，我发现基于电位的塑形功能可能是一种解决方案。在这种情况下，每个状态s的电位F为到白菜的距离。对于非末期状态，原始奖励R为0；如果兔子离开田野，原始奖励R为-1；如果兔子发现白菜，则T为情节持续时间，原始奖励R为1次/ T。终端国家正在寻找白菜并脱离田野。新奖励R'= R +（F（s'）-F（s））/ maxDist。我将不胜感激。