我正在尝试熟悉强化学习。我使用Q学习方法创建了RL。
问题描述
- 我有一组客户,每个客户都有以下功能[价格,类别,集群]-这些客户代表状态
- 可以更改价格的幅度范围为10个操作-例如[0.9,0.8,0.7,0.6,0.5,1,1.2,1.5,1.7,1.9]-使用一些通过使用Q函数应用新价格时,有可能识别出奖励。
- 我能够创建和训练该算法,但是现在假设我想在生产中使用它。我的想法是,作为输入要使用状态[价格,类别,集群],并作为输出,我希望对此给定的客户采取最佳措施。我还认为,一旦获得客户的响应,就必须更新模型,以对模型给予新的奖励。
我试图找到一些示例,这些示例如何保存和使用Q学习功能以及如何对新数据使用更新,但是到目前为止,我还没有看到任何示例。谁能提出一些示例或一些解释,说明如何部署和更新Q学习模型?