我正在使用DQN使AI像alpha GO一样。但是我在教授游戏规则时遇到了麻烦。 AI并不知道“第一次不得将石头扔进已经有人居住的地方”的规则。 每当AI违反该规则时,我都会尝试给予减免奖励。但是看起来AI并没有学习到规则。 我认为教学规则只是浪费时间。 请和我分享你的想法。
答案 0 :(得分:0)
您可以做的是,当您处于状态s时,例如有8种可能的动作(因此网络有8个输出),但是动作1 2 3无法执行,则可以通过对于状态为s的所有无效操作,将目标Q值手动设置为0。
对于训练步骤,当与最大Q值对应的动作无效时,只需选择一个随机动作,别忘了将此动作的目标Q值设置为0。