我正在制作一个神经网络,学会玩飞扬的鸟。网收到:
为了训练神经网络,我需要一个理想的输出,显然,这是为了安全地清除管道的顶部和底部。但是,如果我不确切知道代理人必须跳多少,我该如何训练网?
我是神经网络的新手,而且我已经编写了可以猜测网络的程序,我可以将这个猜测与易于计算的正确答案进行比较,我可以从那里调整权重 - 在这种情况下,我不知道正确的答案,网络的目的是弄清楚它自己。
我能做些什么来实现这个目标?也许有一些链接指向我正确的方向?
感谢。
答案 0 :(得分:1)
这一系列问题是强化学习的目标。在强化学习中,您只需要向网络传递奖励(游戏分数),让网络估算每个动作对最终奖励的影响(或学习Q表)。有各种各样的方法,但我发现以下教程是一个很好的开始: