了解mdptoolbox林示例的参数值

时间:2019-06-08 13:38:10

标签: python numpy reinforcement-learning mdptoolbox

我正在尝试了解如何使用mdptoolbox,并有几个问题。

20在以下语句中是什么意思?

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

我知道10表示可能的状态数。 20在这里是什么意思?它代表每个州采取的行动总数吗?我想将MDP限制为每个状态仅2个动作。我该怎么办?

上面返回的P的形状为(2, 10, 10)2在这里代表什么?无论我用于总状态和动作的值是什么,它总是2

1 个答案:

答案 0 :(得分:1)

您正在运行的代码是正确的,但是您使用的是工具箱中的示例。

请仔细检查documentation

在以下代码中:

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

第二个参数不是MDP的操作参数。 Its documentation解释第二个参数如下:

  

森林处于最古老状态并且执行“等待”操作时的奖励。默认值:4。

在您的情况下,当森林处于最旧状态并执行操作20时,奖励的值将作为Wait传递。

在此示例中,林由两个操作管理:‘Wait’‘Cut’。有关更多详细信息,请参阅此documentation。由于可能有2个动作,因此此函数返回的转移概率矩阵P的第一维大小也为2。您无需手动将操作空间维度限制为2

要了解此工具箱的用法,您还应该浏览this link