具有不同奖励值的RL MAB算法?

时间:2019-06-07 12:24:08

标签: reinforcement-learning

我正在尝试使用RL算法解决一个项目,特别是我想使用e-greedy和UBC。

问题是,我有客户并设定了价格,但是我不知道客户会接受还是拒绝。例如,我计算出第一位客户的价格是x(假设它将是100美元),x是最高价格。下一个人的价格可能会有所不同,因此我将有一些收费范围。 This is how I form the matrix

假设第一个客户接受的价格范围是0.3,但在这种情况下,我也可以从价格中收取0.1,则客户会接受。对于模拟,我正在考虑使用看起来像这样的数据集-1是最高接受价格:

enter image description here

我正在考虑将这个问题用于epsilon贪婪算法和UCB,但我不确定我是否可以考虑到我不仅拥有0和1,还可以计算奖励,这是一个不错的选择吗?还有其他选择吗?我假设最初我不了解有关客户的任何统计信息,所以我认为MDP在这里不是一个好的选择。我该如何考虑不同的奖励价值?

0 个答案:

没有答案