我是机器学习的新手,我正在开发一个动态环境的机器人。 我正在使用python作为项目的编程语言。
我有一个目标状态,机器人有四个动作,例如前进,后退,右转和左转。
问题是当机器人执行一个动作时,我无法定义下一个状态。但是我可以确定每个情节之后的状态是否是目标状态。
如何为此应用强化学习模型。我可以使用pomdp ???
答案 0 :(得分:1)
即使环境是动态的,您也应该有一些运动模型的概念,其中离散的动作应导致机器人直线前进“一步”。在网格化的世界中,这很容易,但是,在连续的环境中,您可以将整个世界网格化,并且仍然可以使用离散操作。如果下一个状态未定义,则机器学习/决策制定算法将无法工作。