是蒙特卡罗树搜索政策还是价值迭代(或其他)?

时间:2018-05-07 18:28:50

标签: reinforcement-learning q-learning temporal-difference monte-carlo-tree-search value-iteration

我正在参加强化学习课程,我不明白如何将政策迭代/价值迭代的概念与蒙特卡罗(以及TD / SARSA / Q学习)结合起来。在下表中,如何填充空单元格:应该/可以是二进制是/否,某些字符串描述还是更复杂?

enter image description here

1 个答案:

答案 0 :(得分:0)

值迭代和策略迭代是基于模型的查找最优策略的方法。他们试图构建环境的马尔可夫决策过程(MDP)。强化学习背后的主要前提是您不需要环境的MDP来找到最优策略,传统的值迭代和策略迭代不被视为RL(尽管理解它们是RL概念的关键)。值迭代和策略迭代“间接”学习,因为它们构成了环境模型,然后可以从该模型中提取最优策略。

“直接”学习方法不会尝试构建环境模型。他们可能会在政策空间中搜索最优策略,或者利用基于价值函数(即基于价值的)学习方法。您现在将学习的大部分方法都倾向于以价值功能为基础。

在基于价值函数的方法中,有两种主要类型的强化学习方法:

  • 基于策略迭代的方法
  • 基于值迭代的方法

对于每种RL方法,您的作业都会询问您是否基于策略迭代或值迭代。

提示:这五种RL方法中的一种与其他方法不同。