奖励的学习和索引

时间:2015-08-26 00:32:55

标签: artificial-intelligence reinforcement-learning

我的问题可能很简单,但我不确定众所周知的Q学习方程中的时间指数。

等式: Qt + 1(St,At)= Qt(St,At)+ alpha *(Rt + 1 + gamma * max_A(Qt(St + 1,A)) - Qt(St,At))

我不明白Rt + 1代表什么。简单的例子:

  1. 我们在时间T处于X州。
  2. 根据epsilon-greedy选择新动作
  3. 应用行动
  4. 我们在时间T + 1
  5. 处于州Y.
  6. (现在我们想要状态Y的更新Q值)奖励是根据动作X计算的 - > Y(?)或是来自行动Y的奖励 - >在评估所有下一个Q值(max_A(Q(Y,A)))
  7. 之后的Z.
  8. 重复1

1 个答案:

答案 0 :(得分:3)

在上一回合你处于状态s(t)并采取行动a(t)。现在你处于状态s(t + 1),接受奖励r(t + 1)和(贪婪地)选择行动a(t + 1)。您可以将上一个操作的值调整为新操作和奖励的折扣值之和。

你的例子中有一些误解:

  1. 您实际上正在更新操作,而不是状态值
  2. 您正在更新状态X的操作值,而不是Y
  3. 在X州采取的具体行动可能导致各种状态,而不仅仅是Y,所以没有X→Y行动
相关问题