Question

我正在阅读＆＃34;强化学习＆＃34;来自Sutton＆amp;巴托和我正试图自己写一些方法。

政策迭代是我目前正在进行的工作。我正在尝试使用OpenAI Gym来解决一个简单的问题，例如CartPole或连续山地车。

然而，对于政策迭代，我需要状态之间的转换矩阵和奖励矩阵。

这些是否来自＆＃39;环境＆＃39;你在OpenAI Gym中构建的。

我正在使用python。

如果没有，我该如何计算这些值，并使用环境？

Answer 1

不，OpenAI Gym环境不会为您提供该表单中的信息。为了收集这些信息，您需要通过抽样来探索环境：即选择行动并接收观察和奖励。使用这些样本，您可以估算它们。

近似这些值的一种基本方法是使用LSPI（最小二乘策略迭代），据我记得，你也会在Sutton中找到更多相关信息。

Answer 2

请参阅toy_text/discrete.py上的这些评论：

P: transitions (*)
(*) dictionary dict of dicts of lists, where
P[s][a] == [(probability, nextstate, reward, done), ...]