python - 如何在没有确切答案的情况下训练神经网络？

如何在没有确切答案的情况下训练神经网络？

时间：2018-03-23 12:23:14

标签： python neural-network deep-learning keras backpropagation

大多数神经网络使用反向传播来学习，但从我如何理解它，你需要一个确切的答案，输出应该是什么工作。我想要做的是学习步行机器人走路，并有一个分数或适应性变量来评估它。关于如何在例如python或keras中执行此操作的任何想法？

1 个答案:

答案 0 :(得分：0)

TLDR;强化学习

一般而言，培训代理人使用强化学习。它与你解释的不同，因为你似乎想要定义一个适应性启发式来告诉代理它是否正常，这可能是有偏见的。强化学习也有偏见，但它们都经过研究和研究。典型的偏差是决定先前行动的重要性的一个因素w.r.t.对当前结果的当前行动。

通过强化学习，您只能不时获得积极或消极的反馈。你只能通过那些反馈时刻来学习。不幸的是，这意味着你只能轻松学习“获胜行动”，“导致获胜行动”更难。所以你需要一个技巧，通常在你的评估函数中递归，以使它工作。好消息是，研究人员已经提出了这样的伎俩。您可以从时差学习或Q学习开始。如果您的模型基于神经网络，则通常会使用梯度下降进行训练。