Encog:强化学习/演员批评模型

时间:2013-11-19 23:03:13

标签: java neural-network reinforcement-learning encog

我有一个基本的神经网络问题,我想要一个“火箭”来维持它在给定高度的高度。 (这是问题的简单版本,它会变得更复杂)。

我正在使用encog平台,目前尚不清楚如何使用它来实施强化学习。

我认为我想使用Actor-Critic模型,其中存在两个独立的NN。其中一个人根据当前状态分析了应得的奖励。另一个NN计算应该对火箭施加的力。

我可以计算一个奖励架构(将火箭和目标高度之间的距离驱动到0)。但我无法弄清楚如何使“演员”NN学习。看起来我会从“Critic”NN中获取错误并使用与Actor的反向传播错误相同的错误。但我无法弄清楚如何在Encog中做到这一点。

非常感谢您的帮助!

0 个答案:

没有答案