我想在2D Gridworld中实现q学习算法。
e.g.:
[[_,_,_,G],
[_,O,_,P],
[x,_,_,_]]
其中" _" =自由空间, " G" =目标状态," P" =陷阱," O" =障碍," x" =想要进入目标状态的代理
到目前为止,我的代码工作正常但我在查看方式方面遇到了问题" x"散步。
目前我只是一次又一次地打印整个列表,但我宁愿让旧的gridworld在新的控制台中被替换,所以看起来代理正在移动。 我尝试使用\ r \ n但它不适用于list / numpy数组。
简短版本: 我想一遍又一遍地打印一个list / numpy数组,但是应该在控制台中替换旧的数组。
我希望有人可以帮助我:D提前致谢!