应用错误收集

利用MDP进行强化学习以实现收入优化

时间：2018-06-07 09:27:01

标签： python optimization reinforcement-learning markov-decision-process

我希望将在飞机上销售座位的服务模型化为MDP（马尔可夫决策流程），以便使用强化学习来实现航空公司收入优化，因为我需要定义将会是什么：状态，行动，政策，价值和奖励。我想了一下，但我认为还有一些缺失。

我以这种方式模拟我的系统：

States = (r,c)其中r是乘客人数，c是所购买的座位数r>=c。
Actions = (p1,p2,p3)这是3个价格。目标是决定哪一个给予更多收入。
奖励：收入。

你能告诉我你的想法和帮助吗？

在模型化之后，我必须实现所有这些有力的强化学习。有没有一个包来做这项工作？

1 个答案:

答案 0 :(得分：0)

我认为你的配方中缺少的最重要的是顺序部分。当顺序使用时，强化学习很有用，其中下一个状态必须依赖于当前状态（因此＆＃34;马尔可夫＆＃34;）。在这个公式中，您根本没有指定任何马尔可夫行为。此外，奖励是标量，它取决于当前状态或当前状态和动作的组合。在您的情况下，收入取决于价格（行动），但与州（席位）无关。这是我在你的配方中看到的两个大问题，还有其他问题。我会建议你通过RL理论（在线课程等），并在尝试制定自己的问题之前先写一些示例问题。