python - Q学习算法可奖励生成

我正在研究Q学习算法（这是我正在关注的教程：https://blog.floydhub.com/an-introduction-to-q-learning-reinforcement-learning/）。基本上，我们有一些状态集（以及它们之间的一些墙），我们需要能够找到任意两个状态之间的可选路径。在奖励矩阵M，M[i, j] = 1 <=>中，i和j之间有一条直接路径，并且它们之间没有墙，否则为0。我的问题是，给定一些迷宫（状态（如链接）所示，如何生成奖励矩阵，而不是如教程中所示手动生成奖励矩阵？在此先感谢:)

Q学习算法可奖励生成

0 个答案: