如何使用强化学习模型MDP Q学习?

时间:2019-05-25 21:59:55

标签: model reinforcement-learning

我对研究强化学习感兴趣,特别是如何将RL用于动态定价。我试图阅读一些有关它的论文,并且大多数时候我会看到一些示例,在这些示例中,作者试图模拟环境以查看最佳选择。

  1. https://arxiv.org/pdf/1803.09967.pdf RL用于公平的动态定价
  2. https://ieeexplore.ieee.org/document/1210269-零售市场动态定价中的强化学习应用程序

我试图理解,在这种情况下,每当我们遇到某种不确定性时,就有可能通过模拟环境来获得答案。并且每次我们有新的输入(环境和状态都不同)时,我们运行程序都会得到结果?可以部署RL模型吗?

我非常感谢动态定价中与RL有关的任何信息/链接,以及如何使用/重用RL模型。

1 个答案:

答案 0 :(得分:2)

RL假定您有某种模拟环境的方法。想法是RL代理在模拟环境中多次“玩游戏”,并以此学习如何玩得开心。我不确定您的意思是“每次我们有新的输入(环境和状态都不同)”-如果状态发生变化,您就不会重新运行(即重新训练模型)。如果环境发生了变化-例如,定价结构或需求分布发生了变化-那么您需要重新培训。但是,如果环境发生变化,意味着您在相同的环境中进入新的状态,则无需重新培训。

对于动态定价,RL可以像这样工作:您拥有真实世界的模拟器。对于您采取的任何行动(例如,针对您设定的任何价格),模拟器都会在多个时间段内模拟需求,竞争对手的行动等。 RL代理反复玩游戏,并学习如何根据每个时段的环境状况在每个时段选择良好的行为。

多周期环境是RL的典型设置。如果只是一个时期,那么您就不需要RL,在这种情况下,有很多更简单的收入优化模型。