reinforcement-learning - 如何在非静态环境中解决确定性MDP

时间：2018-03-09 12:03:25

标签： reinforcement-learning expert-system markov-decision-process

我正在寻找一种解决马尔可夫决策过程（MDP）的方法。我知道从一个州到另一个州的过渡是确定性的，但环境是非平稳的。这意味着当再次访问同一个州时，代理人获得的奖励可以是不同的。是否有算法，如Q-Learning或SARSA，我可以用于我的问题？

答案 0 :(得分：2)

从理论上讲，这将是一个非常棘手的问题。也就是说，很难找到一种算法，该算法具有收敛到任何（最优）解的理论证明。

在实践中，任何标准的RL算法（如你命名的那些）可能都很好，只要它不是“太不稳定”。我的意思是，如果您的环境不会太快/突然/经常变化，那么在实践中可能会很好。您可能希望使用比在固定环境中稍高的探索率和/或更高的学习率，因为您需要能够继续学习，并且更新的体验将比旧体验更具信息性。