这是真的 ?预期的SARSA和双重Q学习怎么样?

时间:2019-03-27 19:38:40

标签: reinforcement-learning q-learning sarsa temporal-difference

我正在研究Reinforcement Learning,并且在理解SARSA,Q-Learning,预期SARSA,Double Q Learning和时间差异之间的差异时遇到了问题。您能解释一下区别并告诉我何时使用它们吗?对电子贪婪和贪婪移动有什么影响?

SARSA:

我处于状态St,在策略的帮助下选择了一个操作,因此它使我进入另一个状态St+1,具体取决于状态St+1的策略,一个操作是因此,由于预期Reward处于前瞻状态St,因此Reward中的St+1将得到更新。

Q(S, A) ← Q(S, A) + α[ R + γQ(S , A ) − Q(S, A)]

Q学习:

我处于状态St,在策略的帮助下选择了一个操作,因此它使我进入状态St+1,这一次它不再依赖于策略,而是要遵守状态Reward中的预期Reward(贪婪St+1)的最大值,并通过状态St的奖励将被更新。

Q(S, A) ← Q(S, A) + α [R + γ max Q(S , a) − Q(S, A)]

预期的SARSA:

这将与Q学习相同,而不是借助Reward中的贪婪举动来更新我的St+1,我将获得所有行动的预期回报:

Q(St , At) ← Q(St , At) + α[Rt+1 + γE[Q(St+1, At+1)|St+1] − Q(St , At)]

时差:

将使用观察到的奖励Reward和估计值Rt+1(位于V(St+1))来更新当前的timepoint t + 1

V (St) ← V (St) + α[Rt+1 + γV (St+1) − V (St)]

我得到的是真的还是我缺少什么吗?那双Q学习呢?

概率为0.5

Q1(S, A) ← Q1(S, A) + α R + γQ2 S , argmaxa Q1(S , a)  − Q1(S, A)  

其他:

Q2(S, A) ← Q2(S, A) + α R + γQ1 S , argmaxa Q2(S , a)  − Q2(S, A)  

有人可以解释吗!

0 个答案:

没有答案