大多数神经网络使用反向传播来学习,但从我如何理解它,你需要一个确切的答案,输出应该是什么工作。我想要做的是学习步行机器人走路,并有一个分数或适应性变量来评估它。关于如何在例如python或keras中执行此操作的任何想法?
答案 0 :(得分:0)
TLDR;强化学习
一般而言,培训代理人使用强化学习。它与你解释的不同,因为你似乎想要定义一个适应性启发式来告诉代理它是否正常,这可能是有偏见的。强化学习也有偏见,但它们都经过研究和研究。典型的偏差是决定先前行动的重要性的一个因素w.r.t.对当前结果的当前行动。
通过强化学习,您只能不时获得积极或消极的反馈。你只能通过那些反馈时刻来学习。不幸的是,这意味着你只能轻松学习“获胜行动”,“导致获胜行动”更难。所以你需要一个技巧,通常在你的评估函数中递归,以使它工作。好消息是,研究人员已经提出了这样的伎俩。您可以从时差学习或Q学习开始。如果您的模型基于神经网络,则通常会使用梯度下降进行训练。