使用训练数据训练另一个模型

时间:2018-05-14 10:24:59

标签: deep-learning reinforcement-learning

我正在开展NIPS 2017学习运行项目。我的时间有限,我需要尝试2个模型(DDPG和Soft Actor Critic)。模拟速度很慢,需要花费太多时间。 我想知道, 在我训练其中一个之后,是否可以使用其状态 - 动作 - 奖励数据来训练另一个?

1 个答案:

答案 0 :(得分:-1)

如果用经过训练的DDPG Q表替换未经训练的SAC模型的Q表,那么您将使用由DDPG方法生成的聚合策略。同样地,用经过训练的SAC模型用Q表替换未经训练的DDPG模型的Q表将使其遵循SAC方法的融合策略。

如果您还没有,请查看this paper,其中讨论并试验了DDPG和SAC之间的差异。