DDPG的时变策略

时间:2019-02-07 22:59:49

标签: reinforcement-learning

我想训练一个与时间有关的政策。例如,我想知道产品价格随时间的流逝,即从t = 1到t = T的定价政策。

我是否应该一开始就将定价策略从t = 1初始化为t = T?如何在DDPG中初始化它?

0 个答案:

没有答案