应用错误收集

问题1：我们想从s转到e。在每个单元格中，我们可以向右移动R或向下移动D。环境是众所周知的。该表有（4 * 5）20个单元格。挑战在于我们不知道每个单元格的奖励是什么，但是当我们通过并完成一条路径时，我们将获得总体奖励。例如：一个解决方案可以是RRDDRDR，总奖励为16。

s 3 5 1 5

1 2 4 5 1

7 3 1 2 8

9 2 1 1 e

目标是找到从开始到结束的一组动作，以最大程度地获得所获得的总体奖励。我们如何在行动之间分配总体奖励？

问题2：这个问题与问题1相同，但是问题环境的奖励是动态的，因此我们到达一个单元的方式将影响前面单元的奖励。例如：对于RRD和DRR的两次运动，两者都会将我们带到同一单元格，但是由于它们具有不同的路径，因此前面的单元格将具有不同的奖励。

s 3 5 1 5

1 2 4 9 -1

7 3 2 -5 18

9 2 9 7 e

（RRD路径，选择此路径将导致前面的单元格的奖励发生变化）

s 3 5 1 5

1 2 4 3 1

7 3 30 7 -8

9 2 40 11 e

（DRR路径，选择此路径将导致前方单元格的奖励发生变化）

目标是找到从开始到结束的一组动作，以最大程度地获得所获得的总体奖励。我们如何在行动之间分配总体报酬？（经过从起点到终点的路径后，可以获得总体奖励）