如何处理不确定的位置?

时间:2017-03-14 19:11:49

标签: reinforcement-learning uncertainty

我正在研究汽车跟随问题,我收到的测量结果不确定(我知道噪音模型是高斯模型,它的方差也是已知的)。如何在这种不确定性中选择我的下一步行动?

基本上我应该如何更改成本函数,以便通过选择适当的操作来优化我的计划?

1 个答案:

答案 0 :(得分:1)

香草强化学习适用于马尔可夫决策过程,它假定您可以完全观察状态。因为你的州很吵,你有一个Partially observable Markov decision process。从理论上讲,你应该看一下不同类型的RL方法。

实际上,由于您有关于不确定性参数的大量信息,您应该考虑使用Kalmanparticle filter来执行状态估计。然后,将最可能的状态估计值用作RL问题中的真实状态。当然,估计有时会是错误的,但如果您使用函数逼近方法进行价值函数,那么经验可以在相似的状态中推广,并且您将能够学习。学习成绩将与州估计的质量成正比。