强化学习的模式和政策有什么区别

时间:2019-07-27 10:34:33

标签: model reinforcement-learning policy mdp

这两个定义似乎都表明它们是从状态到动作的映射,那么有什么区别或我错了?

1 个答案:

答案 0 :(得分:0)

这篇文章真的为您总结了:
What is Model-Based Reinforcement Learning?

  

要建模还是不建模

     

“模型”是机器学习(以及更广泛的科学学科)中经常使用的那些术语之一,通常对我们的意思有相对模糊的解释。幸运的是,在强化学习中,模型具有非常特殊的含义:模型指的是环境的不同动态状态以及这些状态如何导致奖励。

     

...该策略是您用来根据当前状态/位置确定要采取的操作/方向的策略。

强化学习(或任何真正的学习)的总体结果是制定一项政策,即针对特定领域提出的一系列行为或行动。

强化因素是您根据先前的学习结果不断地重新运行学习过程,有效地应用新策略并从结果中学习以改进策略。

在基于模型的强化学习中,我们使用模型来表示环境或领域,该文档记录了事实或状态以及可能采取的措施。通过了解某些事实,策略可以专门针对每个重复周期中的这些状态和动作,测试和提高策略的准确性,就像它可以提高模型的质量一样。

查看两者的另一种方法是模型是先前学习的记录或结果,它是环境的更新视图。该模型基于过去的策略执行结果处理事实或假定的事实,该模型保存了过去执行的记录,该数据可用于估计从特定状态采取某些措施的结果。该政策是对行为的实际学习,而作为模型的事实就是支持并证实我们的学习的事实。

同一篇文章中的此图简化了强化学习中的模型政策之间的关系:

A flow diagram of model-based RL