为什么我们需要在强化学习中设置MDP

时间:2017-04-03 17:49:56

标签: machine-learning deep-learning reinforcement-learning

在许多强化学习(RL)论文中,马尔可夫决策过程(MDP)是RL问题的典型问题设置。这个设置的真正好处是什么?有些论文使用LSTM作为其策略网络结构,这显然违反了MDP假设并且更有意义。

1 个答案:

答案 0 :(得分:2)

基本上,马尔可夫决策过程提供了一个理论框架,可以分析算法的收敛保证以及其他理论属性。尽管LSTM和其他深度学习方法与RL相结合已经取得了令人瞩目的成果,但它们缺乏坚实的理论背景,可以理解或确保算法何时学习有用的东西,或者学习政策与最优政策的距离。