应用错误收集

我正在研究一个侧面项目，它正在模拟倒立摆问题并解决它使用强化学习算法，最值得注意的是Q-Learning。我已经为网格世界设计了一个简单的MDP解算器 - 简单的东西。

然而，经过几天的研究论文后，我正在努力弄清楚如何做到这一点。没有什么能解释如何建立一个表示问题的框架。

在对问题进行建模时，是否可以使用标准马尔可夫决策过程？或者它必须是POMDP吗？

每个州的代表什么（即状态信息传递给代理商）？钟摆的坐标，速度，角度等？

代理可以采取什么行动？它是+或 - x方向的连续速度范围吗？

非常感谢对此的建议。

Richard S. Sutton和Andrew G. Barto撰写的“强化学习：简介”是关于强化学习的默认书，他们也讨论了推车杆问题（http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html）。 Sutton还提供了购物车杆问题的C代码：http://webdocs.cs.ualberta.ca/~sutton/book/code/pole.c 当然，在线问题有很多实现：https://github.com/stober/cartpole

根据您想要的难度，该问题有多种解决方案。

轻松开始，逐步解决更棘手的问题！