应用错误收集

DDPG的时变策略

时间：2019-02-07 22:59:49

标签： reinforcement-learning

我想训练一个与时间有关的政策。例如，我想知道产品价格随时间的流逝，即从t = 1到t = T的定价政策。

我是否应该一开始就将定价策略从t = 1初始化为t = T？如何在DDPG中初始化它？

0 个答案:

没有答案