我正在尝试了解如何使用mdptoolbox,并有几个问题。
20
在以下语句中是什么意思?
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
我知道10
表示可能的状态数。 20
在这里是什么意思?它代表每个州采取的行动总数吗?我想将MDP限制为每个状态仅2个动作。我该怎么办?
上面返回的P
的形状为(2, 10, 10)
。 2
在这里代表什么?无论我用于总状态和动作的值是什么,它总是2
。
答案 0 :(得分:1)
您正在运行的代码是正确的,但是您使用的是工具箱中的示例。
请仔细检查documentation。
在以下代码中:
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
第二个参数不是MDP的操作参数。 Its documentation解释第二个参数如下:
森林处于最古老状态并且执行“等待”操作时的奖励。默认值:4。
在您的情况下,当森林处于最旧状态并执行操作20
时,奖励的值将作为Wait
传递。
在此示例中,林由两个操作管理:‘Wait’
和‘Cut’
。有关更多详细信息,请参阅此documentation。由于可能有2个动作,因此此函数返回的转移概率矩阵P
的第一维大小也为2
。您无需手动将操作空间维度限制为2
。
要了解此工具箱的用法,您还应该浏览this link。