Q表格表示

时间:2017-03-02 05:52:50

标签: reinforcement-learning q-learning

据我了解Q学习,Q值是衡量特定状态 - 动作对“有多好”的指标。这通常以下列方式之一表示在表格中(见图):

enter image description here

  1. 这两种陈述都有效吗?
  2. 如果将Q表作为状态到状态转换表(如图中的顶部q表所示)给出,如何确定最佳操作,特别是如果状态转换不是确定性的(即,一个州的行动可以在不同的时间让你进入不同的国家?)

1 个答案:

答案 0 :(得分:1)

  1. 没有。通常,动作不等同于向特定状态的转换。可以存在与状态不同的动作数量,相同的动作可以导致不同的状态,这取决于其执行的状态,并且不同的动作可以导致相同的状态。过渡也可以是随机的。

  2. 见(1)。