我最近尝试使用Tic Tac Toe bot实施强化学习。
我用Python创建了一个自学游戏机器人。在经过足够的迭代后,它能够几乎完美地击败一个随机玩家,并与一个极小极大的玩家对战(随机播放最佳动作)。
我的最后一次尝试是创建静态opponent-bot,其Q表在每集后都会更新,以匹配动态变化的那个。
即使在调整了超参数之后,我也无法达到理想的效果:在300集之后,机器人仍然对我失去了兴趣,每集都有100场比赛。
我的问题是:一旦机器人不再学习,即使我增加了迭代次数,我该如何修改代码?
以下是我的一些想法:(您怎么看?)
此外,如果您对我的代码有任何评论/建议,请随时告诉我您认为可以改进的任何内容。
谢谢!