Question

我正在尝试了解如何使用mdptoolbox，并有几个问题。

20在以下语句中是什么意思？

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

我知道10表示可能的状态数。 20在这里是什么意思？它代表每个州采取的行动总数吗？我想将MDP限制为每个状态仅2个动作。我该怎么办？

上面返回的P的形状为(2, 10, 10)。 2在这里代表什么？无论我用于总状态和动作的值是什么，它总是2。

Answer 1

您正在运行的代码是正确的，但是您使用的是工具箱中的示例。

请仔细检查documentation。

在以下代码中：

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

第二个参数不是MDP的操作参数。 Its documentation解释第二个参数如下：

森林处于最古老状态并且执行“等待”操作时的奖励。默认值：4。

在您的情况下，当森林处于最旧状态并执行操作20时，奖励的值将作为Wait传递。

在此示例中，林由两个操作管理：‘Wait’和‘Cut’。有关更多详细信息，请参阅此documentation。由于可能有2个动作，因此此函数返回的转移概率矩阵P的第一维大小也为2。您无需手动将操作空间维度限制为2。

要了解此工具箱的用法，您还应该浏览this link。