我正在研究Reinforcement Learning
,并且在理解SARSA,Q-Learning,预期SARSA,Double Q Learning和时间差异之间的差异时遇到了问题。您能解释一下区别并告诉我何时使用它们吗?对电子贪婪和贪婪移动有什么影响?
SARSA:
我处于状态St
,在策略的帮助下选择了一个操作,因此它使我进入另一个状态St+1
,具体取决于状态St+1
的策略,一个操作是因此,由于预期Reward
处于前瞻状态St
,因此Reward
中的St+1
将得到更新。
Q(S, A) ← Q(S, A) + α[ R + γQ(S , A ) − Q(S, A)]
Q学习:
我处于状态St
,在策略的帮助下选择了一个操作,因此它使我进入状态St+1
,这一次它不再依赖于策略,而是要遵守状态Reward
中的预期Reward
(贪婪St+1
)的最大值,并通过状态St
的奖励将被更新。
Q(S, A) ← Q(S, A) + α [R + γ max Q(S , a) − Q(S, A)]
预期的SARSA:
这将与Q学习相同,而不是借助Reward
中的贪婪举动来更新我的St+1
,我将获得所有行动的预期回报:
Q(St , At) ← Q(St , At) + α[Rt+1 + γE[Q(St+1, At+1)|St+1] − Q(St , At)]
时差:
将使用观察到的奖励Reward
和估计值Rt+1
(位于V(St+1)
)来更新当前的timepoint t + 1
:
V (St) ← V (St) + α[Rt+1 + γV (St+1) − V (St)]
我得到的是真的还是我缺少什么吗?那双Q学习呢?
概率为0.5
Q1(S, A) ← Q1(S, A) + α R + γQ2 S , argmaxa Q1(S , a) − Q1(S, A)
其他:
Q2(S, A) ← Q2(S, A) + α R + γQ1 S , argmaxa Q2(S , a) − Q2(S, A)
有人可以解释吗!