如何处理在终端状态下具有奖励的可变长度情节的奖励

时间:2020-01-17 17:20:10

标签: reinforcement-learning

游戏的目的是让兔子在最短的时间内找到一个大白菜并吃掉。动作空间是离散的(上/下/右/左),状态空间是连续的(非常大的场)。当兔子找到大白菜或离开田野时(以先发生者为准),跳跃100次后情节结束。状态变量之一是到卷心菜的距离。由于该领域非常大,因此我使用奖励整形(靠近或远离白菜的奖励小/正数)。为了在最短时间内到达白菜,每跳一次奖励为0,发现白菜时奖励为1。但是,塑造奖励会破坏计划。有没有一种优雅的方法在游戏中采用奖励塑造,以及如何?感谢您的任何建议。

1 个答案:

答案 0 :(得分:0)

经过一些研究,我发现基于电位的塑形功能可能是一种解决方案。在这种情况下,每个状态s的电位F为到白菜的距离。对于非末期状态,原始奖励R为0;如果兔子离开田野,原始奖励R为-1;如果兔子发现白菜,则T为情节持续时间,原始奖励R为1次/ T。终端国家正在寻找白菜并脱离田野。新奖励R'= R +(F(s')-F(s))/ maxDist。我将不胜感激。