如何插入丢失的奖励矩阵条目(Q学习)?

时间:2020-05-10 17:14:18

标签: python machine-learning q-learning

我在网格上有一个简单的游戏。 25个州,每个州五个动作(左,右,上,下,停留)。对于边缘和拐角可能有特殊的规则,但是在这里并不重要。

我的奖励矩阵(如下)非常稀疏,但这是我拥有或将拥有的所有数据。我必须对丢失的奖励数据做出推断。

Q学习本身是一种插值方案,但是以面值解释我的奖励矩阵将意味着,朝D4的移动总比向B2的移动有价值。 (大概是完整的奖励矩阵中的B2> D4)。

我可以想到很多方法来混合奖励矩阵,但是出于纯粹的美学原因,我希望有一些规范的(和迭代的)内插方案用于Q学习奖励。可以无缝融合到基本Q学习算法中的东西。

reward matrix

谢谢。

0 个答案:

没有答案