应用错误收集

时间：2019-05-22 14:33:06

标签： python reinforcement-learning q-learning

关于强化学习的问题，我有一个问题。

我要衡量两个相互依赖的产品的价格接受度。这意味着，如果我更改产品A的价格，也许客户会宁愿购买产品B。

在我的想象中，我需要为此加强学习算法。该状态就是A和B的实际价格（例如A：15€，B：12€）。

操作可能是价格的可能变化（例如，价格A-2€）

因此本例中的下一个状态为（A：13€，B：12€）

奖励将类似于利润差或任何其他变量，告诉我价格变化的成功程度。

我现在的问题是：我没有最终状态，对吗？我该如何处理？我只想最大化回报。强化学习甚至是正确的方法还是对我来说更合适？

答案 0 :(得分：0)

在强化学习中，最终状态不是必需的，您只需要谨慎调整伽玛。

我们可以提供有关价格接受度计算的更多信息吗？

另一件事，我真的没有发现在您的问题中使用神经网络的兴趣，事实是您的目标是根据您的环境价格找到产品（A，B）的最佳价格接受将为您带来最大的收益，但是当您找到这对夫妇时，无论网络输入是什么，最佳夫妇还是一样吗？

我认为，如果直接给出一些环境变量作为网络的输入，则应该将神经网络与Q学习结合使用除了当前价格外，还与价格接受有关。