应用错误收集

时间：2017-11-03 11:39:13

标签： neural-network

我正在制作一个神经网络，学会玩飞扬的鸟。网收到：

为了训练神经网络，我需要一个理想的输出，显然，这是为了安全地清除管道的顶部和底部。但是，如果我不确切知道代理人必须跳多少，我该如何训练网？

我是神经网络的新手，而且我已经编写了可以猜测网络的程序，我可以将这个猜测与易于计算的正确答案进行比较，我可以从那里调整权重 - 在这种情况下，我不知道正确的答案，网络的目的是弄清楚它自己。

我能做些什么来实现这个目标？也许有一些链接指向我正确的方向？

感谢。

答案 0 :(得分：1)

这一系列问题是强化学习的目标。在强化学习中，您只需要向网络传递奖励（游戏分数），让网络估算每个动作对最终奖励的影响（或学习Q表）。有各种各样的方法，但我发现以下教程是一个很好的开始：