应用错误收集

为什么我们需要在强化学习中设置MDP

时间：2017-04-03 17:49:56

标签： machine-learning deep-learning reinforcement-learning

在许多强化学习（RL）论文中，马尔可夫决策过程（MDP）是RL问题的典型问题设置。这个设置的真正好处是什么？有些论文使用LSTM作为其策略网络结构，这显然违反了MDP假设并且更有意义。

1 个答案:

答案 0 :(得分：2)

基本上，马尔可夫决策过程提供了一个理论框架，可以分析算法的收敛保证以及其他理论属性。尽管LSTM和其他深度学习方法与RL相结合已经取得了令人瞩目的成果，但它们缺乏坚实的理论背景，可以理解或确保算法何时学习有用的东西，或者学习政策与最优政策的距离。