我已经使用python实现了VI(Value Iteration),PI(策略迭代)和QLearning算法。比较结果后,我发现了一些东西。 VI和PI算法汇聚于相同的实用程序和策略。 使用相同的参数,QLearning算法会收敛到不同的实用程序,但与VI和PI算法的策略相同。这是正常的吗?我阅读了很多关于MDP和RL的论文和书籍,但是找不到任何能说明VI-PI算法的实用程序是否应该与QLearning收敛到相同实用程序的东西。 / p>
以下信息是关于我的网格世界和结果。
MY GRID WORLD
结果
qLearning_1million_10million_iterations_results.png
此外,我还注意到,当QLearning进行100万次迭代时,距离+10奖励终端同样远的状态具有相同的效用。代理似乎并不关心它是否会从接近-10终端的路径获得奖励,而代理商则关注VI和PI算法。 这是因为,在QLearning中,我们不知道环境的转换概率吗?