标签: machine-learning deep-learning reinforcement-learning
在许多强化学习(RL)论文中,马尔可夫决策过程(MDP)是RL问题的典型问题设置。这个设置的真正好处是什么?有些论文使用LSTM作为其策略网络结构,这显然违反了MDP假设并且更有意义。
答案 0 :(得分:2)
基本上,马尔可夫决策过程提供了一个理论框架,可以分析算法的收敛保证以及其他理论属性。尽管LSTM和其他深度学习方法与RL相结合已经取得了令人瞩目的成果,但它们缺乏坚实的理论背景,可以理解或确保算法何时学习有用的东西,或者学习政策与最优政策的距离。