我正在尝试理解 Q-Learning
基本更新公式:
Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]
我理解公式及其作用,但我的问题是:
代理如何知道选择Q(st,at)?
我理解代理遵循某些政策π,但您如何首先制定此政策?
目前我有:
然而,这并没有真正解决太多,你仍然陷入局部最小/最大。
所以,为了解决问题,我的主要问题是:
对于一无所知且正在使用无模型算法的代理,您是如何生成初始策略的,因此它知道要采取哪种操作?
答案 0 :(得分:0)
该更新公式逐步计算每个州的每个行动的预期价值。贪婪的政策总是选择最有价值的行动。当您已经学习了这些值时,这是最好的策略。在学习过程中最常用的策略是ε-贪婪策略,它选择概率为1-ε的最高值动作,以及概率为ε的随机动作。