应用错误收集

我对研究强化学习感兴趣，特别是如何将RL用于动态定价。我试图阅读一些有关它的论文，并且大多数时候我会看到一些示例，在这些示例中，作者试图模拟环境以查看最佳选择。

https://arxiv.org/pdf/1803.09967.pdf RL用于公平的动态定价
https://ieeexplore.ieee.org/document/1210269-零售市场动态定价中的强化学习应用程序

我试图理解，在这种情况下，每当我们遇到某种不确定性时，就有可能通过模拟环境来获得答案。并且每次我们有新的输入（环境和状态都不同）时，我们运行程序都会得到结果？可以部署RL模型吗？

我非常感谢动态定价中与RL有关的任何信息/链接，以及如何使用/重用RL模型。

RL假定您有某种模拟环境的方法。想法是RL代理在模拟环境中多次“玩游戏”，并以此学习如何玩得开心。我不确定您的意思是“每次我们有新的输入（环境和状态都不同）”-如果状态发生变化，您就不会重新运行（即重新训练模型）。如果环境发生了变化-例如，定价结构或需求分布发生了变化-那么您需要重新培训。但是，如果环境发生变化，意味着您在相同的环境中进入新的状态，则无需重新培训。

对于动态定价，RL可以像这样工作：您拥有真实世界的模拟器。对于您采取的任何行动（例如，针对您设定的任何价格），模拟器都会在多个时间段内模拟需求，竞争对手的行动等。 RL代理反复玩游戏，并学习如何根据每个时段的环境状况在每个时段选择良好的行为。

多周期环境是RL的典型设置。如果只是一个时期，那么您就不需要RL，在这种情况下，有很多更简单的收入优化模型。

如何使用强化学习模型MDP Q学习？

1 个答案: