我正在阅读"强化学习"来自Sutton&巴托和我正试图自己写一些方法。
政策迭代是我目前正在进行的工作。我正在尝试使用OpenAI Gym来解决一个简单的问题,例如CartPole或连续山地车。
然而,对于政策迭代,我需要状态之间的转换矩阵和奖励矩阵。
这些是否来自'环境'你在OpenAI Gym中构建的。
我正在使用python。
如果没有,我该如何计算这些值,并使用环境?
答案 0 :(得分:2)
不,OpenAI Gym环境不会为您提供该表单中的信息。为了收集这些信息,您需要通过抽样来探索环境:即选择行动并接收观察和奖励。使用这些样本,您可以估算它们。
近似这些值的一种基本方法是使用LSPI(最小二乘策略迭代),据我记得,你也会在Sutton中找到更多相关信息。
答案 1 :(得分:1)
请参阅toy_text/discrete.py上的这些评论:
P: transitions (*)
(*) dictionary dict of dicts of lists, where
P[s][a] == [(probability, nextstate, reward, done), ...]