如何使用价值迭代解决强化学习网格世界的例子?

时间:2018-03-03 12:15:41

标签: reinforcement-learning value-iteration

我发现理论或python例子作为初学者并不令人满意。我只需要了解一个简单的例子来理解逐步迭代。任何人都可以向我展示我为价值迭代上传的图像的第一次和第二次迭代吗? Grid world problem

2 个答案:

答案 0 :(得分:0)

答案 1 :(得分:0)

除了@holibut的链接非常有用之外,我还建议:https://github.com/JaeDukSeo/reinforcement-learning-an-introduction/blob/master/chapter03/GridWorld.py

作者实现了本书中介绍的完整网格生成。恕我直言,这是一种更简单的实现,可以调试网格生成循环,以逐步清晰地看到值的计算方式以及Bellman方程的应用方式。