reinforcement-learning - 具有不同奖励值的RL MAB算法？

我正在尝试使用RL算法解决一个项目，特别是我想使用e-greedy和UBC。

问题是，我有客户并设定了价格，但是我不知道客户会接受还是拒绝。例如，我计算出第一位客户的价格是x（假设它将是100美元），x是最高价格。下一个人的价格可能会有所不同，因此我将有一些收费范围。

假设第一个客户接受的价格范围是0.3，但在这种情况下，我也可以从价格中收取0.1，则客户会接受。对于模拟，我正在考虑使用看起来像这样的数据集-1是最高接受价格：

我正在考虑将这个问题用于epsilon贪婪算法和UCB，但我不确定我是否可以考虑到我不仅拥有0和1，还可以计算奖励，这是一个不错的选择吗？还有其他选择吗？我假设最初我不了解有关客户的任何统计信息，所以我认为MDP在这里不是一个好的选择。我该如何考虑不同的奖励价值？