如何在没有确切答案的情况下训练神经网络?

时间:2018-03-23 12:23:14

标签: python neural-network deep-learning keras backpropagation

大多数神经网络使用反向传播来学习,但从我如何理解它,你需要一个确切的答案,输出应该是什么工作。我想要做的是学习步行机器人走路,并有一个分数或适应性变量来评估它。关于如何在例如python或keras中执行此操作的任何想法?

1 个答案:

答案 0 :(得分:0)

TLDR;强化学习

一般而言,培训代理人使用强化学习。它与你解释的不同,因为你似乎想要定义一个适应性启发式来告诉代理它是否正常,这可能是有偏见的。强化学习也有偏见,但它们都经过研究和研究。典型的偏差是决定先前行动的重要性的一个因素w.r.t.对当前结果的当前行动。

通过强化学习,您只能不时获得积极或消极的反馈。你只能通过那些反馈时刻来学习。不幸的是,这意味着你只能轻松学习“获胜行动”,“导致获胜行动”更难。所以你需要一个技巧,通常在你的评估函数中递归,以使它工作。好消息是,研究人员已经提出了这样的伎俩。您可以从时差学习或Q学习开始。如果您的模型基于神经网络,则通常会使用梯度下降进行训练。