Q学习算法可奖励生成

时间:2020-02-17 23:14:36

标签: python reinforcement-learning q-learning

我正在研究Q学习算法(这是我正在关注的教程:https://blog.floydhub.com/an-introduction-to-q-learning-reinforcement-learning/)。基本上,我们有一些状态集(以及它们之间的一些墙),我们需要能够找到任意两个状态之间的可选路径。在奖励矩阵MM[i, j] = 1 <=>中,i和j之间有一条直接路径,并且它们之间没有墙,否则为0。我的问题是,给定一些迷宫(状态(如链接)所示,如何生成奖励矩阵,而不是如教程中所示手动生成奖励矩阵?在此先感谢:)

0 个答案:

没有答案