应用错误收集

如何教AI游戏规则？

时间：2019-05-16 11:06:00

标签： deep-learning reinforcement-learning q-learning

我正在使用DQN使AI像alpha GO一样。但是我在教授游戏规则时遇到了麻烦。 AI并不知道“第一次不得将石头扔进已经有人居住的地方”的规则。每当AI违反该规则时，我都会尝试给予减免奖励。但是看起来AI并没有学习到规则。我认为教学规则只是浪费时间。请和我分享你的想法。

1 个答案:

答案 0 :(得分：0)

您可以做的是，当您处于状态s时，例如有8种可能的动作（因此网络有8个输出），但是动作1 2 3无法执行，则可以通过对于状态为s的所有无效操作，将目标Q值手动设置为0。

对于训练步骤，当与最大Q值对应的动作无效时，只需选择一个随机动作，别忘了将此动作的目标Q值设置为0。