标签: reinforcement-learning
我想训练一个与时间有关的政策。例如,我想知道产品价格随时间的流逝,即从t = 1到t = T的定价政策。
我是否应该一开始就将定价策略从t = 1初始化为t = T?如何在DDPG中初始化它?