应用错误收集

未定义下一个状态的机器人的Q学习算法

时间：2018-07-30 08:43:32

标签： python python-3.x numpy reinforcement-learning q-learning

我是机器学习的新手，我正在开发一个动态环境的机器人。我正在使用python作为项目的编程语言。

我有一个目标状态，机器人有四个动作，例如前进，后退，右转和左转。

问题是当机器人执行一个动作时，我无法定义下一个状态。但是我可以确定每个情节之后的状态是否是目标状态。

如何为此应用强化学习模型。我可以使用pomdp ???

1 个答案:

答案 0 :(得分：1)

即使环境是动态的，您也应该有一些运动模型的概念，其中离散的动作应导致机器人直线前进“一步”。在网格化的世界中，这很容易，但是，在连续的环境中，您可以将整个世界网格化，并且仍然可以使用离散操作。如果下一个状态未定义，则机器学习/决策制定算法将无法工作。