如何在非静态环境中解决确定性MDP

时间:2018-03-09 12:03:25

标签: reinforcement-learning expert-system markov-decision-process

我正在寻找一种解决马尔可夫决策过程(MDP)的方法。我知道从一个州到另一个州的过渡是确定性的,但环境是非平稳的。这意味着当再次访问同一个州时,代理人获得的奖励可以是不同的。是否有算法,如Q-Learning或SARSA,我可以用于我的问题?

1 个答案:

答案 0 :(得分:2)

从理论上讲,这将是一个非常棘手的问题。也就是说,很难找到一种算法,该算法具有收敛到任何(最优)解的理论证明。

在实践中,任何标准的RL算法(如你命名的那些)可能都很好,只要它不是“太不稳定”。我的意思是,如果您的环境不会太快/突然/经常变化,那么在实践中可能会很好。您可能希望使用比在固定环境中稍高的探索率和/或更高的学习率,因为您需要能够继续学习,并且更新的体验将比旧体验更具信息性。