这是我在这里的第一篇文章,我来到这里是为了讨论或澄清一些我无法理解的东西,即无模型和基于模型的RL方法。我目前正在实施Q-learning,但我不确定我是否正确地进行了。
示例:假设我正在将Q学习应用于倒立摆,其中奖励是作为摆锤向上位置之间的绝对距离而给出的,并且终端状态(或目标状态)被定义为当钟摆非常接近时向上的位置。
这种设置是否意味着我有一个免模型或基于模型的设置?根据我的理解,这将是基于模型的,因为我有一个给我奖励的环境模型(R = abs(pos-wantedPos))。但后来我看到了使用Q-learning(https://medium.com/@tuzzer/cart-pole-balancing-with-q-learning-b54c6068d947)的实现,这是一个无模型算法。现在我很无能......
感谢所有回复。
答案 0 :(得分:1)
Vanilla Q-learning无模型。
强化学习背后的理念是培训学员根据状态和奖励对学习最佳策略 - 这与尝试模拟环境形成对比。
如果采用基于模型的方法,您将尝试对环境建模并最终执行马尔可夫决策过程的值迭代或策略迭代。
在强化学习中,假设您没有MDP,因此必须根据您从经验中获得的各种奖励来尝试找到最佳政策。
如需更长的解释,请查看this post。