没有最终状态的强化学习?

时间:2019-05-22 14:33:06

标签: python reinforcement-learning q-learning

关于强化学习的问题,我有一个问题。

我要衡量两个相互依赖的产品的价格接受度。这意味着,如果我更改产品A的价格,也许客户会宁愿购买产品B。

在我的想象中,我需要为此加强学习算法。 该状态就是A和B的实际价格(例如A:15€,B:12€)。

操作可能是价格的可能变化(例如,价格A-2€)

因此本例中的下一个状态为(A:13€,B:12€)

奖励将类似于利润差或任何其他变量,告诉我价格变化的成功程度。

我现在的问题是:我没有最终状态,对吗?我该如何处理?我只想最大化回报。强化学习甚至是正确的方法还是对我来说更合适?

1 个答案:

答案 0 :(得分:0)

在强化学习中,最终状态不是必需的,您只需要谨慎调整伽玛。

我们可以提供有关价格接受度计算的更多信息吗?

另一件事,我真的没有发现在您的问题中使用神经网络的兴趣,事实是您的目标是根据您的环境价格找到产品(A,B)的最佳价格接受将为您带来最大的收益,但是当您找到这对夫妇时,无论网络输入是什么,最佳夫妇还是一样吗?

我认为,如果直接给出一些环境变量作为网络的输入,则应该将神经网络与Q学习结合使用 除了当前价格外,还与价格接受有关。