我的意思是象棋,草稿,tic tac toe,2048,超级马里奥等游戏,在一般游戏中需要多次游戏,移动完成。
我非常确定可以使用遗传算法,但我愿意知道是否有办法用纯粹的反向传播训练它。我将使用什么作为目标值?
我想让他在比赛结束前让他进行一些动作并将最终结果用作目标值,但我认为这只会训练最后一步,赢了吗?
另一种方法是训练每一步,但那么目标值是什么?您可以逐个移动地拥有多个有效选择,但从长远来看,肯定会有更好的选择。如何在没有我试错的情况下选择它?
用Backprop实现这是不可能的吗?
答案 0 :(得分:0)
绝对可以,但你必须提供非常好的训练数据。您必须生成所有可能的电路板位置,然后以编程方式确定哪个移动最适合该位置。例如,您可以使用minimax基本上生成所有运动。
做你想做的事情的最好方法是收集输入:那些倾向于很好地玩游戏的人类玩家的输出数据,然后在启用了dropout的情况下反向传播这些值,以确保网络注意到大模式。 / p>
我有一个古老的项目,它根据你的游戏风格(neuraldino)教授一个神经网络学习,虽然我是神经网络的新手,所以它可能不那么有效。