推杆与强化学习的框架

时间:2013-01-22 19:27:03

标签: process markov

我正在研究一个侧面项目,它正在模拟倒立摆问题并解决它 使用强化学习算法,最值得注意的是Q-Learning。我已经为网格世界设计了一个简单的MDP解算器 - 简单的东西。

然而,经过几天的研究论文后,我正在努力弄清楚如何做到这一点。没有什么能解释如何建立一个表示问题的框架。

在对问题进行建模时,是否可以使用标准马尔可夫决策过程?或者它必须是POMDP吗?

每个州的代表什么(即状态信息传递给代理商)?钟摆的坐标,速度,角度等?

代理可以采取什么行动?它是+或 - x方向的连续速度范围吗?

非常感谢对此的建议。

1 个答案:

答案 0 :(得分:1)

Richard S. Sutton和Andrew G. Barto撰写的“强化学习:简介”是关于强化学习的默认书,他们也讨论了推车杆问题(http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html)。 Sutton还提供了购物车杆问题的C代码:http://webdocs.cs.ualberta.ca/~sutton/book/code/pole.c 当然,在线问题有很多实现:https://github.com/stober/cartpole

根据您想要的难度,该问题有多种解决方案。

  • 您可以将其建模为MDP或POMDP。
  • 状态可以包括位置,速度,角度和角速度,或者这些的任何子集。
  • 您可以对状态空间进行离散化,您可以使用函数逼近。
  • 动作可以是最小和最大加速度(离散),介于两者之间(离散或连续)。

轻松开始,逐步解决更棘手的问题!