我正在查看示例考试,并且有关于Q-learning的问题,我已将其包含在下面。在第3步中,采取的行动是如何“正确”的。而不是' up' (回到A2)。回到A2的Q值似乎是0.18,而右边的Q值是0.09。那么为什么代理人不会回到A2而不是去B3?
编辑:另外,为什么2,C的行动奖励价值为2,正确'即使那里有一堵墙而且不可能正确?我们只是假设这不是一个可能的举动而忽略了它的Q值吗?
编辑2:然后在步骤6中,进入'向下'并且'对'在州1,C是平等的。那时代理人只是随机挑选?那么对于这个问题,我会选择最好的举动,因为代理人可能会选择它吗?
编辑3:说代理人没有回到他以前来自的状态会是真的吗?代理人是否会不止一次探索同一个州(不包括启动迷宫的新实例)?
答案 0 :(得分:3)
您似乎假设您应该在下一个时间步骤中查看状态的值。这是不正确的。 Q函数回答了这个问题:
如果我处于州
x
,我应该采取哪种行动?
在非确定性环境中,您甚至不知道下一个状态是什么,因此无法确定您的解释采取哪种行动。
Q学习的学习部分确实在两个后续的时间步长上起作用,但在它们已知之后,它们习惯于更新 Q-功能的值。这与如何收集这些样本(状态,动作,强化,下一状态)无关。在这种情况下,样本由与环境交互的代理收集。在Q-learning设置中,代理根据策略与环境进行交互,该策略基于此处的Q函数的当前值。从概念上讲,政策的工作方式是回答我上面引用的问题。
在步骤1和2中,仅针对状态1,A
和2,A
修改Q功能。在第3步中,代理处于状态3,A
,因此这是Q函数中唯一相关的部分。
在第3步中,采取的行动是如何“正确”而不是“向上”(回到A2)。
在州3,A
中,具有最高Q值的操作是“正确”(0.2
)。所有其他操作都具有值0.0
。
另外,为什么2,C对于行动'正确'的奖励值为2,即使那里有一堵墙而且不可能正确?我们只是假设这不是一个可能的举动而忽略了它的Q值吗?
在我看来,2,C
右边没有墙。然而,给出了Q函数,并且在这个任务中是否可以使用Q学习来达到这样的Q函数是无关紧要的。无论如何,你总是可以从任意Q函数开始Q-learning。
在Q-learning中你唯一的知识是Q函数,所以你对“墙”和其他东西一无所知 - 你根据Q函数行事,这就是这个算法的全部美。
然后在步骤6中,在状态1,C处“向下”和“向右”的Q值相等。那时代理人只是随机挑选?那么对于这个问题,我会选择最好的举动,因为代理人可能会选择它吗?
同样,您应该查看代理当前所处状态的值,因此对于1,B
“正确”是最佳的 - 它具有0.1
,其他操作为0.0
。
要回答最后一个问题,即使它与此无关:是的,如果代理正在采取贪婪的步骤并且多个动作看起来是最佳的,那么它会在大多数常见策略中随机选择一个。
说代理人没有回到他之前来自的状态是真的吗?代理人是否会不止一次探索同一个州(不包括启动迷宫的新实例)?
没有。正如我上面所说 - 唯一的指导代理在纯Q学习中使用的是Q函数。它不知道它之前一直处于特定的状态。