我对执行值迭代得到的结果有疑问,数字增加到无穷大,所以我认为我的逻辑上有问题。
最初,我有一个10x10的网格,有些瓦片的奖励为+10,有些瓦片的奖励为-100,有些瓦片的奖励为0。没有终端状态。代理可以执行4个不确定动作:向上,向下,向左和向右移动。它有80%的机会沿所选方向移动,而20%的机会沿垂直方向移动。
我的过程是遍历以下内容:
例如,计算从给定图块向北移动的值:
self.northVal = 0
self.northVal += (0.1 * grid[x-1][y])
self.northVal += (0.1 * grid[x+1][y])
self.northVal += (0.8 * grid[x][y+1])
我将不胜感激!