应用错误收集

时间：2015-08-26 00:32:55

标签： artificial-intelligence reinforcement-learning

我的问题可能很简单，但我不确定众所周知的Q学习方程中的时间指数。

等式： Qt + 1（St，At）= Qt（St，At）+ alpha *（Rt + 1 + gamma * max_A（Qt（St + 1，A）） - Qt（St，At））

我不明白Rt + 1代表什么。简单的例子：

我们在时间T处于X州。
根据epsilon-greedy选择新动作
应用行动
我们在时间T + 1
（现在我们想要状态Y的更新Q值）奖励是根据动作X计算的 - ＆gt; Y（？）或是来自行动Y的奖励 - ＆gt;在评估所有下一个Q值（max_A（Q（Y，A）））
重复1

答案 0 :(得分：3)

在上一回合你处于状态s（t）并采取行动a（t）。现在你处于状态s（t + 1），接受奖励r（t + 1）和（贪婪地）选择行动a（t + 1）。您可以将上一个操作的值调整为新操作和奖励的折扣值之和。

你的例子中有一些误解：