我们知道策略迭代可以直接为我们提供策略,因此速度更快。但是任何人都可以用一些示例来解释它。
答案 0 :(得分:0)
策略迭代速度更快的原因是-一个策略可以用无数个值函数表示,因此在策略迭代中,当您从一个策略跳转到另一个策略时,您实际上已经跳过了无数个值函数。
例如:
p1 = [0,1,1]
是一项针对3个状态和2个操作的策略,在该策略中,它选择状态0的操作0和状态1和2的操作1。
现在,让我们考虑两个值函数:
v1 = [[0.9,0.6],[0.6,0.8],[0.8,0.9]]
v2 = [[0.9,0.6],[0.7,0.8],[0.6,0.9]]
在这里,v1和v2都映射到相同的策略,所以当您进行策略迭代时,就好像您不在乎这两个值函数不同,因为它们映射到相同的策略。因此,当您更新策略时,实际上已经丢弃了大量的这些值函数,在进行值迭代时,您可能会在最坏的情况下对每个函数进行迭代。