q-learning - Q-Learning中级奖励 - Thinbug

Q-Learning中级奖励

时间：2018-12-04 23:10:50

标签： q-learning reward-system

如果在包含中间奖励的情况下，Q-Learning代理在特定的纸牌游戏中实际上比对手表现明显好，这是否表明该算法存在缺陷或其实现存在缺陷？

1 个答案:

答案 0 :(得分：1)

如果没有有关Q-Learning代理的更具体的信息，很难回答这个问题。您可以将立即奖励的追求称为剥削率，剥削率通常与勘探率成反比。在实现中应该可以配置此参数和学习率。另一个重要因素是勘探策略的选择，您应该毫不费力地找到有助于选择的资源。例如：

http://www.ai.rug.nl/~mwiering/GROUP/ARTICLES/Exploration_QLearning.pdf

https://www.cs.mcgill.ca/~vkules/bandits.pdf

要直接回答这个问题，可能是实现，配置，代理体系结构或学习策略的问题，这些问题会导致立即开发并限制本地最小值。