应用错误收集

使用训练数据训练另一个模型

时间：2018-05-14 10:24:59

标签： deep-learning reinforcement-learning

我正在开展NIPS 2017学习运行项目。我的时间有限，我需要尝试2个模型（DDPG和Soft Actor Critic）。模拟速度很慢，需要花费太多时间。我想知道，在我训练其中一个之后，是否可以使用其状态 - 动作 - 奖励数据来训练另一个？

1 个答案:

答案 0 :(得分：-1)

如果用经过训练的DDPG Q表替换未经训练的SAC模型的Q表，那么您将使用由DDPG方法生成的聚合策略。同样地，用经过训练的SAC模型用Q表替换未经训练的DDPG模型的Q表将使其遵循SAC方法的融合策略。

如果您还没有，请查看this paper，其中讨论并试验了DDPG和SAC之间的差异。