我发现理论或python例子作为初学者并不令人满意。我只需要了解一个简单的例子来理解逐步迭代。任何人都可以向我展示我为价值迭代上传的图像的第一次和第二次迭代吗? Grid world problem
答案 0 :(得分:0)
我推荐这篇PDF:http://www.cis.upenn.edu/~cis519/fall2015/lectures/14_ReinforcementLearning.pdf, 这对网格世界问题非常清楚。 github上有代码:
https://github.com/kevlar1818/grid-world-rl
希望那些帮助。
答案 1 :(得分:0)
除了@holibut的链接非常有用之外,我还建议:https://github.com/JaeDukSeo/reinforcement-learning-an-introduction/blob/master/chapter03/GridWorld.py
作者实现了本书中介绍的完整网格生成。恕我直言,这是一种更简单的实现,可以调试网格生成循环,以逐步清晰地看到值的计算方式以及Bellman方程的应用方式。