考虑先前在AWS Deep Racer中创建的奖励功能

时间:2019-10-25 12:02:17

标签: amazon-web-services reinforcement-learning

假设我创建了一个奖励fn。 A并训练我的模型。然后,我克隆模型并更改奖励fn。 (比方说,奖励B)并对其进行训练。最终模型也从奖励fn中吸取了教训。 A和B还是忘记了fn的学习。 A并且仅从奖励fn获得训练。 B?

1 个答案:

答案 0 :(得分:0)

根据文档https://docs.aws.amazon.com/deepracer/latest/developerguide/awsracerdg.pdf

克隆训练有素的模型,继续训练以提高性能。

应该继续进行培训。 我还尝试过克隆并继续使用不变的奖励功能,结果一开始就比第一次尝试要好得多。

但是我可以想象,如果您改变功能,后面的训练有素的神经网络将在每个新情节中越来越多地适应您的新奖励功能B。