所以我想通过做一些例子来学习强化学习。我写了2048游戏,但我不知道我是否正确训练。据我所知,我必须创建神经网络。我为每个号码创建了16个输入。然后隐藏层12x8和4输出用于移动(向上,向右,向下,向左)。 (lat层的激活函数线性函数和休息的relu)然后我运行一个完整的游戏并保存所有的移动和奖励(0-没有发生,-2-不移动的移动,-1当移动丢失的游戏和移动做某事时所获得的得分数)。当游戏结束时,我从最后一步做了反向传播算法。我做得很严格还是什么?我知道有像tensorflow这样的库,但我想要理解这一切。
答案 0 :(得分:0)
我会咨询this GitHub repo,因为它完全符合您的要求。
您实际上可以实时使用上述解决方案here。
如果你想真正了解这一切的基本原理,那就超出了StackOverflow上的一篇文章的范围。