python - 如何插入丢失的奖励矩阵条目（Q学习）？

我在网格上有一个简单的游戏。 25个州，每个州五个动作（左，右，上，下，停留）。对于边缘和拐角可能有特殊的规则，但是在这里并不重要。

我的奖励矩阵（如下）非常稀疏，但这是我拥有或将拥有的所有数据。我必须对丢失的奖励数据做出推断。

Q学习本身是一种插值方案，但是以面值解释我的奖励矩阵将意味着，朝D4的移动总比向B2的移动有价值。（大概是完整的奖励矩阵中的B2> D4）。

我可以想到很多方法来混合奖励矩阵，但是出于纯粹的美学原因，我希望有一些规范的（和迭代的）内插方案用于Q学习奖励。可以无缝融合到基本Q学习算法中的东西。

谢谢。