我正在研究一个侧面项目,它正在模拟倒立摆问题并解决它 使用强化学习算法,最值得注意的是Q-Learning。我已经为网格世界设计了一个简单的MDP解算器 - 简单的东西。
然而,经过几天的研究论文后,我正在努力弄清楚如何做到这一点。没有什么能解释如何建立一个表示问题的框架。
在对问题进行建模时,是否可以使用标准马尔可夫决策过程?或者它必须是POMDP吗?
每个州的代表什么(即状态信息传递给代理商)?钟摆的坐标,速度,角度等?
代理可以采取什么行动?它是+或 - x方向的连续速度范围吗?
非常感谢对此的建议。
答案 0 :(得分:1)
根据您想要的难度,该问题有多种解决方案。
轻松开始,逐步解决更棘手的问题!