我的问题可能很简单,但我不确定众所周知的Q学习方程中的时间指数。
等式: Qt + 1(St,At)= Qt(St,At)+ alpha *(Rt + 1 + gamma * max_A(Qt(St + 1,A)) - Qt(St,At))
我不明白Rt + 1代表什么。简单的例子:
答案 0 :(得分:3)
在上一回合你处于状态s(t)并采取行动a(t)。现在你处于状态s(t + 1),接受奖励r(t + 1)和(贪婪地)选择行动a(t + 1)。您可以将上一个操作的值调整为新操作和奖励的折扣值之和。
你的例子中有一些误解: