我想为使用鼠标移动的游戏实施强化学习。该游戏仅关心鼠标的x轴。
我的第一个尝试是使其离散。游戏将有3个动作。使用两个动作可将鼠标左右移动30个像素,使用一个动作可保持静止。它有效,但现在我想使其连续。
我所做的是使神经网络输出均值和标准差。就像这样的代码https://github.com/stefanbo92/A3C-Continuous/blob/master/a3c.py。我什至在第二次尝试中使用了此代码。游戏的宽度为480,因此A_BOUND为[-240,240]。为了使问题始终具有积极的作用,我将预测的作用添加到了240,然后将鼠标位置设置为新的位置。
例如:如果动作是240 + -240,则鼠标的x pos将为0。问题是我的神经网络在启动后几秒钟始终仅输出从240到-240的极限值。