利用MDP进行强化学习以实现收入优化

时间:2018-06-07 09:27:01

标签: python optimization reinforcement-learning markov-decision-process

我希望将在飞机上销售座位的服务模型化为MDP(马尔可夫决策流程),以便使用强化学习来实现航空公司收入优化,因为我需要定义将会是什么:状态,行动,政策,价值和奖励。我想了一下,但我认为还有一些缺失。

我以这种方式模拟我的系统:

  • States = (r,c)其中r是乘客人数,c是所购买的座位数r>=c
  • Actions = (p1,p2,p3)这是3个价格。目标是决定哪一个给予更多收入。
  • 奖励:收入。

你能告诉我你的想法和帮助吗?

在模型化之后,我必须实现所有这些有力的强化学习。有没有一个包来做这项工作?

1 个答案:

答案 0 :(得分:0)

我认为你的配方中缺少的最重要的是顺序部分。当顺序使用时,强化学习很有用,其中下一个状态必须依赖于当前状态(因此"马尔可夫")。在这个公式中,您根本没有指定任何马尔可夫行为。此外,奖励是标量,它取决于当前状态或当前状态和动作的组合。在您的情况下,收入取决于价格(行动),但与州(席位)无关。这是我在你的配方中看到的两个大问题,还有其他问题。我会建议你通过RL理论(在线课程等),并在尝试制定自己的问题之前先写一些示例问题。