未定义下一个状态的机器人的Q学习算法

时间:2018-07-30 08:43:32

标签: python python-3.x numpy reinforcement-learning q-learning

我是机器学习的新手,我正在开发一个动态环境的机器人。 我正在使用python作为项目的编程语言。

我有一个目标状态,机器人有四个动作,例如前进,后退,右转和左转。

问题是当机器人执行一个动作时,我无法定义下一个状态。但是我可以确定每个情节之后的状态是否是目标状态。

如何为此应用强化学习模型。我可以使用pomdp ???

1 个答案:

答案 0 :(得分:1)

即使环境是动态的,您也应该有一些运动模型的概念,其中离散的动作应导致机器人直线前进“一步”。在网格化的世界中,这很容易,但是,在连续的环境中,您可以将整个世界网格化,并且仍然可以使用离散操作。如果下一个状态未定义,则机器学习/决策制定算法将无法工作。