我希望将在飞机上销售座位的服务模型化为MDP(马尔可夫决策流程),以便使用强化学习来实现航空公司收入优化,因为我需要定义将会是什么:状态,行动,政策,价值和奖励。我想了一下,但我认为还有一些缺失。
我以这种方式模拟我的系统:
States = (r,c)
其中r是乘客人数,c是所购买的座位数r>=c
。Actions = (p1,p2,p3)
这是3个价格。目标是决定哪一个给予更多收入。你能告诉我你的想法和帮助吗?
在模型化之后,我必须实现所有这些有力的强化学习。有没有一个包来做这项工作?
答案 0 :(得分:0)
我认为你的配方中缺少的最重要的是顺序部分。当顺序使用时,强化学习很有用,其中下一个状态必须依赖于当前状态(因此"马尔可夫")。在这个公式中,您根本没有指定任何马尔可夫行为。此外,奖励是标量,它取决于当前状态或当前状态和动作的组合。在您的情况下,收入取决于价格(行动),但与州(席位)无关。这是我在你的配方中看到的两个大问题,还有其他问题。我会建议你通过RL理论(在线课程等),并在尝试制定自己的问题之前先写一些示例问题。