在Open AI Gym中实现策略迭代方法

时间:2017-08-01 12:05:06

标签: python machine-learning reinforcement-learning openai-gym

我正在阅读"强化学习"来自Sutton&巴托和我正试图自己写一些方法。

政策迭代是我目前正在进行的工作。我正在尝试使用OpenAI Gym来解决一个简单的问题,例如CartPole或连续山地车。

然而,对于政策迭代,我需要状态之间的转换矩阵和奖励矩阵。

这些是否来自'环境'你在OpenAI Gym中构建的。

我正在使用python。

如果没有,我该如何计算这些值,并使用环境?

2 个答案:

答案 0 :(得分:2)

不,OpenAI Gym环境不会为您提供该表单中的信息。为了收集这些信息,您需要通过抽样来探索环境:即选择行动并接收观察和奖励。使用这些样本,您可以估算它们。

近似这些值的一种基本方法是使用LSPI(最小二乘策略迭代),据我记得,你也会在Sutton中找到更多相关信息。

答案 1 :(得分:1)

请参阅toy_text/discrete.py上的这些评论:

P: transitions (*)
(*) dictionary dict of dicts of lists, where
P[s][a] == [(probability, nextstate, reward, done), ...]