我的目标是预测客户流失。我想使用强化学习来训练一个反复出现的神经网络,该神经网络预测其输入的目标响应。
我知道状态是每次都由网络输入表示,但我不明白该动作是如何表示的。它是神经网络应该通过某些公式决定选择的权重值吗?
此外,我们应该如何创建奖励或惩罚来教导神经网络其权重,因为我们不知道每个输入神经元的目标响应?
答案 0 :(得分:2)
强化学习的目的通常是为玩游戏的代理人(马尔可夫决策过程)最大化长期奖励。在典型的强化学习用法中,神经网络用于近似Q函数。因此,网络的输入是状态和动作(或其特征表示),并且输出是在该状态下采取该动作的值。强化学习算法(如Q-learning)提供了有关如何在给定时间步骤选择操作的详细信息,还规定了如何对值函数进行更新。
目前尚不清楚如何将构建客户流失模型的具体目标制定为马尔可夫决策问题。您可以将州定义为有关客户的统计数据。与公司网站的互动,但不清楚行动可能是什么,因为它不清楚代理是什么以及它可以做什么。这也是您发现难以定义奖励功能的原因。奖励功能应该告诉代理人它是否做得很好。因此,如果我们想象一个代理商试图最大限度地减少客户流失的MDP,我们可能会提供与转换客户数量成比例的负面回报。
我认为你不想学习Q功能。我认为你更有可能只是对监督学习感兴趣 ,你有一些样本数据,你想学习一个功能,告诉你将有多少流失。为此,您应该考虑使用梯度下降方法和前向/后向传播来训练您的神经网络。