Q-Learning中级奖励

时间:2018-12-04 23:10:50

标签: q-learning reward-system

如果在包含中间奖励的情况下,Q-Learning代理在特定的纸牌游戏中实际上比对手表现明显好,这是否表明该算法存在缺陷或其实现存在缺陷?

1 个答案:

答案 0 :(得分:1)

如果没有有关Q-Learning代理的更具体的信息,很难回答这个问题。您可以将立即奖励的追求称为剥削率,剥削率通常与勘探率成反比。在实现中应该可以配置此参数和学习率。另一个重要因素是勘探策略的选择,您应该毫不费力地找到有助于选择的资源。例如:

http://www.ai.rug.nl/~mwiering/GROUP/ARTICLES/Exploration_QLearning.pdf

https://www.cs.mcgill.ca/~vkules/bandits.pdf

要直接回答这个问题,可能是实现,配置,代理体系结构或学习策略的问题,这些问题会导致立即开发并限制本地最小值。