奖励分配强化学习

时间:2019-09-16 07:03:25

标签: reward

问题1: 我们想从s转到e。在每个单元格中,我们可以向右移动R或向下移动D。环境是众所周知的。该表有(4 * 5)20个单元格。挑战在于我们不知道每个单元格的奖励是什么,但是当我们通过并完成一条路径时,我们将获得总体奖励。 例如:一个解决方案可以是RRDDRDR,总奖励为16。

s 3 5 1 5

1 2 4 5 1

7 3 1 2 8

9 2 1 1 e

目标是找到从开始到结束的一组动作,以最大程度地获得所获得的总体奖励。我们如何在行动之间分配总体奖励?

问题2: 这个问题与问题1相同,但是问题环境的奖励是动态的,因此我们到达一个单元的方式将影响前面单元的奖励。 例如:对于RRD和DRR的两次运动,两者都会将我们带到同一单元格,但是由于它们具有不同的路径,因此前面的单元格将具有不同的奖励。

s 3 5 1 5

1 2 4 9 -1

7 3 2 -5 18

9 2 9 7 e

(RRD路径,选择此路径将导致前面的单元格的奖励发生变化)

s 3 5 1 5

1 2 4 3 1

7 3 30 7 -8

9 2 40 11 e

(DRR路径,选择此路径将导致前方单元格的奖励发生变化)

目标是找到从开始到结束的一组动作,以最大程度地获得所获得的总体奖励。我们如何在行动之间分配总体报酬? (经过从起点到终点的路径后,可以获得总体奖励)

1 个答案:

答案 0 :(得分:0)

您能否说说您正在做的研究? (问题听起来很像是某人可能为了让您考虑时间信用分配而分配的东西。)