应用错误收集

我有一个基本的神经网络问题，我想要一个“火箭”来维持它在给定高度的高度。（这是问题的简单版本，它会变得更复杂）。

我正在使用encog平台，目前尚不清楚如何使用它来实施强化学习。

我认为我想使用Actor-Critic模型，其中存在两个独立的NN。其中一个人根据当前状态分析了应得的奖励。另一个NN计算应该对火箭施加的力。

我可以计算一个奖励架构（将火箭和目标高度之间的距离驱动到0）。但我无法弄清楚如何使“演员”NN学习。看起来我会从“Critic”NN中获取错误并使用与Actor的反向传播错误相同的错误。但我无法弄清楚如何在Encog中做到这一点。

非常感谢您的帮助！